마이크로소프트는 세 가지 새로운 기반 모델을 통해 AI 독립성을 향해 나아가고 있습니다.

마지막 업데이트 : 04/04/2026
  • 마이크로소프트는 오픈AI에 대한 의존도를 줄이기 위해 전사, 음성 생성 및 이미지 생성을 위한 세 가지 자체 AI 기반 모델을 도입했습니다.
  • MAI-Transcribe-1은 25개 언어를 지원하며 Microsoft의 현재 Azure Fast 전사 서비스보다 약 2.5배 빠른 속도로 작동합니다.
  • MAI-Voice-1은 약 1초 만에 60초 분량의 맞춤형 오디오를 생성할 수 있으며, MAI-Image-2는 고급 이미지 및 비디오 생성을 목표로 합니다.
  • 이 모델들은 Microsoft Foundry, MAI Playground, Teams 및 Azure에 통합되며, 경쟁력 있는 가격 정책과 2027년까지 대규모 첨단 모델을 출시하기 위한 로드맵을 제공합니다.

마이크로소프트의 새로운 AI 기반 모델

마이크로소프트는 분명한 방향으로 나아가고 있습니다. 인공지능의 자율성 증대 전사, 음성 생성 및 이미지 생성을 목표로 하는 자체 기반 모델 3개를 도입함으로써, 이 회사는 오픈AI와의 긴밀한 상업적 제휴 관계를 유지하면서도 자체적으로 완벽하게 제어하는 ​​더욱 심층적이고 다중 모달 AI 스택을 구축하고자 한다는 신호를 보내고 있습니다.

이러한 새로운 시스템은 다음의 지침에 따라 개발되었습니다. 마이크로소프트 AI / MAI 초지능 팀은 다음과 직접 연결되도록 설계되었습니다. Teams 및 Azure와 같은 제품 내부 실험 플랫폼에도 적용될 것입니다. 실제로 마이크로소프트는 장기적인 전략을 위한 기반을 마련하고 있습니다. 이 회사의 자체 모델은 일상적인 업무량의 점점 더 큰 비중을 차지하고 있습니다.OpenAI와 같은 외부 모델은 명확하고 차별화된 가치를 제공하는 경우에만 사용합니다.

마이크로소프트가 개발한 음성 및 이미지 전사를 위한 세 가지 기본 모델

이번 출시의 핵심은 세 가지 모델입니다. MAI-전사-1 음성-텍스트 변환의 ​​경우, MAI-보이스-1 텍스트 음성 변환 및 MAI-이미지-2 시각적 생성을 위한 것입니다. 이 둘은 함께 사내 개발의 첫 번째이자 매우 눈에 띄는 레이어를 형성합니다. 멀티모달 AI 스택 마이크로소프트 생태계 내에서 텍스트, 오디오 및 이미지를 처리할 수 있습니다.

마이크로소프트는 대형 범용 모델에만 의존하기보다는 다음과 같은 전략을 펼치고 있습니다. 더 저렴하고 빠른 작업 중심 시스템 일반적인 기업 사용 사례에 적합합니다. 특히 Copilot 사용자 수와 Office, Teams 및 Azure의 AI 기반 기능이 계속 증가함에 따라 API 사용량에 거의 선형적으로 비례하여 비용이 증가하는 상황에서 이러한 접근 방식은 더욱 중요합니다.

기초 모델 이러한 종류의 알고리즘은 방대하고 다양한 데이터 세트로 학습되어 다양한 시나리오에 적용될 수 있습니다. 여기서는 콜센터 녹취록 작성 및 회의 요약부터 합성 음성, 접근성 도구, 자동 콘텐츠 제작 파이프라인에 이르기까지 모든 분야에 활용될 수 있음을 의미합니다.

MAI-Transcribe-1: 25개 언어를 지원하는 더 빠르고 다국어 음성-텍스트 변환 프로그램

MAI-Transcribe-1은 마이크로소프트의 새로운 제품입니다. 음성-텍스트 변환 엔진 그리고 이 출시의 핵심 요소 중 하나입니다. 이 모델은 전사 기능을 지원합니다. 25 다른 언어 내부적으로 벤치마킹한 결과 대략 다음과 같은 성능을 보였습니다. 이 서비스는 회사의 기존 Azure Fast 녹취 서비스보다 2.5배 빠릅니다.이는 현재 포트폴리오에서 기준점이 되어 왔습니다.

이러한 성능 향상이 중요한 이유는 다음과 같습니다. 전사 작업량은 지연 시간에 매우 민감합니다.특히 실시간 자막, 고객 지원 또는 하이브리드 회의와 같은 실시간 시나리오에서 유용합니다. 더 넓은 언어 지원 범위는 마이크로소프트의 글로벌 입지와도 부합하여 다국적 기업 고객이 지역별 도구를 혼합하여 사용하는 대신 단일 공급업체로 표준화하는 것을 더욱 쉽게 해줍니다.

제품 관점에서 마이크로소프트는 MAI-Transcribe-1을 직접 연결할 계획입니다. Microsoft 팀 회의록과 실시간 자막을 처리하기 위해서입니다. 시간이 지나면서 동일한 엔진이 다른 생산성 도구들의 핵심 기능으로 자리 잡을 것으로 예상됩니다. 사용자는 브랜드 변경을 굳이 알아차리지 못하더라도 더 빠른 속도와 더 낮은 비용을 경험하게 됩니다..

가격 책정은 매우 공격적으로 이루어졌습니다. MAI-Transcribe-1은 약 ~부터 시작합니다. 처리된 오디오 1시간당 0.36달러이 수치는 마이크로소프트 자체 클라우드 인프라에서 실행되면서도 구글과 오픈AI의 유사한 제품보다 낮은 가격을 제시하는 것을 목표로 합니다.

MAI-Voice-1: 사용자 지정 음성을 지원하는 초고속 텍스트 음성 변환

오디오 생성 측면에서 보면, MAI-보이스-1 마이크로소프트의 새로운 모델입니다. 텍스트를 음성으로 변환회사에 따르면, 이 설비는 대략적인 생산량을 낼 수 있습니다. 60초 분량의 오디오를 약 1초의 처리 시간 내에 처리합니다.이는 응답성이 매우 중요한 사용 사례에서 주목할 만한 도약입니다.

단순한 속도 외에도, 핵심적인 약속은 다음과 같은 지원을 제공하는 것입니다. 맞춤형, 브랜드에 맞춘 목소리조직들은 고객 지원 핫라인, 대화형 에이전트, 교육 자료, 팟캐스트, 접근성 기능 등 다양한 분야에서 조직의 정체성이나 특정 사용 사례에 맞는 음성을 정의할 수 있게 될 것입니다. 합성 음성이 더욱 보편화되고 청취자들이 음색과 명료성에 대한 요구를 높여감에 따라 이러한 수준의 제어는 점점 더 중요해지고 있습니다.

마이크로소프트는 MAI-Voice-1을 바로 그 목표를 향해 추진하고 있습니다. 음성 기능을 많이 사용하는 제품을 개발하는 개발자 및 기업콜센터, 앱 내 도우미, 언어 학습 도구, 미디어 플랫폼 또는 확장 가능한 내레이션이 필요한 모든 서비스에 적합합니다. 가격은 ~부터 시작합니다. 백만 자당 22달러이 모델은 소량 생산과 대량 생산 모두에서 재정적으로 실행 가능하도록 설계되었습니다.

인프라 측면에서 MAI-Voice-1은 다음을 통해 제공됩니다. Azure APIMicrosoft Foundry 및 MAI Playground이를 통해 팀은 환경을 전환하지 않고도 음성을 신속하게 테스트하고 프로덕션 환경으로 바로 이동할 수 있습니다. 핵심 아이디어는 마이크로소프트 스택 내에서 실험부터 배포까지 전체 과정을 간소화하는 것입니다.

마이크로소프트의 음성 및 이미지 전사용 AI 모델

MAI-Image-2: 마이크로소프트 스택에 통합된 이미지 및 비디오 생성 기능

세 번째 모델, MAI-이미지-2, 에 중점을 둡니다. 텍스트 입력을 기반으로 이미지(일부 설명에서는 비디오 포함) 생성이 회사는 모든 기술적 세부 사항을 공개하지는 않았지만, 해당 모델을 자사의 텍스트 및 오디오 시스템의 시각적 버전으로 포지셔닝하고 있으며, 마케팅 자료, 제품 이미지, 스토리보드 및 기타 미디어 제작을 자동화하는 것을 목표로 하고 있습니다.

흥미롭게도 MAI-Image-2는 처음에는 비교적 조용히 등장했습니다. 마이 놀이터마이크로소프트는 지난 3월 중순 대규모 모델 실험 환경을 공개한 바 있으며, 이번 발표는 해당 환경이 더 광범위한 계획의 일부로서 역할을 수행한다는 것을 공식화하는 것입니다. 파운드리와 아주르 기업들이 단순한 연구용 데모가 아닌 표준 구성 요소로 접근할 수 있는 생태계입니다.

가격 책정은 다시 한번 경쟁력을 고려하여 이루어졌습니다. 회사는 진입 가격을 약 0.5달러로 제시하고 있습니다. 텍스트 입력 토큰 백만 개당 5달러 주위에 생성된 이미지 100만 개당 출력 토큰 33달러이러한 수치는 경쟁사 제공업체의 유사 등급과 동등하거나 그 이하인 수준으로 제시되면서도 마이크로소프트의 엔터프라이즈 보안 및 규정 준수 스택의 이점을 누릴 수 있다는 점을 강조합니다.

사용 사례는 다음과 같습니다. 자동화된 크리에이티브 워크플로우 개인 맞춤형 마케팅 이미지부터 제품 디자인을 위한 신속한 프로토타이핑까지 다양한 용도로 활용할 수 있습니다. 이미 Azure를 표준으로 사용하는 많은 고객에게 있어 핵심적인 장점은 외부 공급업체를 추가로 고용하지 않고도 이미지 생성 기능을 시험해 볼 수 있다는 점입니다.

Azure, Foundry, MAI Playground 및 Microsoft 365 간의 통합

이번 출시의 핵심적인 특징은 새로운 모델들이 기존 제품에 얼마나 긴밀하게 통합되었는지입니다. 마이크로소프트의 기존 클라우드 및 생산성 플랫폼MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2 세 가지 시스템 모두 순차적으로 출시되고 있습니다. 마이크로소프트 파운드리이는 회사의 기초 모델 접근 및 확장을 위한 환경입니다.

개발자는 다음으로 시작할 수 있습니다. 마이 놀이터여기서는 동일한 모델들이 보다 실험적인 인터페이스에서 제공됩니다. 이러한 설정은 팀이 곧바로 전체 통합에 착수하지 않고도 전사, 합성 음성 또는 시각 생성과 같은 기능을 시험해 볼 수 있도록 진입 장벽을 낮추기 위한 것입니다.

제품 측면에서 마이크로소프트는 이미 다음과 같은 점을 지적하고 있습니다. Microsoft 팀 초기 수혜자 중 하나로, MAI-Transcribe-1은 회의록 및 자막 생성에 사용될 예정이며, MAI-Voice-1과 MAI-Image-2는 향후 다양한 분야에서 활용될 것으로 예상됩니다. Copilot 및 Microsoft 365 환경최종 사용자가 명시적인 모델 브랜딩을 보지 못하더라도 마찬가지입니다.

기업들에게 있어 그 약속은 다음과 같습니다. 단일하고 일관된 스택 Azure 환경에서 음성 및 이미지, 전사 데이터가 언어 모델, 데이터 서비스 및 분석 기능과 함께 제공됩니다. 이는 여러 외부 AI 공급업체를 통합하는 것보다 규정 준수, 보안 검토 및 공급업체 관리를 간소화할 수 있습니다.

가격 전략 및 OpenAI, Google과의 경쟁

마이크로소프트는 기술 사양 외에도 다음과 같은 사항에 많은 비중을 두고 있습니다. 가격 경쟁력이 회사는 이러한 모델들을 유사 제품과 동등하거나 더 저렴한 대안으로 공개적으로 홍보하고 있습니다. OpenAI와 구글특히 지속적이고 대량으로 사용하는 경우에 그렇습니다.

공개된 가격대 – 오디오 1시간당 0.36달러 MAI-Transcribe-1의 경우, 백만 글자당 22달러 MAI-Voice-1 및 백만 토큰당 5달러/33달러 MAI-Image-2의 구조는 단순한 기술적 세부 사항이 아닙니다. 이는 마이크로소프트가 보여주고자 하는 더 넓은 메시지의 일부입니다. 비용 효율적인 엔드투엔드 생성형 AI 제공업체 단순히 파트너 모델의 재판매업체가 아니라.

점점 더 많은 조직들이 AI를 일상 업무에 도입하고 있는 시장에서, 요청당 비용은 빠르게 전략적 변수가 될 수 있습니다.마이크로소프트는 자체 모델을 보유함으로써 외부 공급업체에 큰 비용을 지불하는 대신 컴퓨팅 비용, 모델 복잡성 및 사용자 가격 간의 균형을 세밀하게 조정할 수 있습니다.

또한 일종의 신호 효과도 있습니다. 마이크로소프트는 자체 벤치마크와 가격표를 강조함으로써, 이미 Azure를 사용하고 있는 고객이라면 전사, 음성 및 이미지와 같은 핵심 워크로드에 대해 더 이상 타사 모델을 사용할 필요가 없다는 것을 효과적으로 알리고 있습니다.

무스타파 술레이만(Mustafa Suleyman)과 “인간 중심” AI 비전

이 세 가지 새로운 모델은 다음 그룹으로 분류된 팀에서 나왔습니다. 마이크로소프트 AI / MAI 초지능,에 의해 주도 무스타파 술레만현재 마이크로소프트 AI를 이끌고 있는 술레이만은 AI 업계에서 여러 직책을 역임했으며, 자신이 구상하는 비전을 공개적으로 제시해 왔습니다. “인간 중심적 AI” 또는 인간 중심의 인공지능.

마이크로소프트의 출시 관련 자료에서 술레이만은 이러한 모델들이 다음과 같이 설계되었다고 강조합니다. 사람들이 실제로 소통하는 방식을 반영합니다우선시하여 실용성과 안전성그의 말에 따르면, 목표는 추상적인 연구 프로젝트가 아닌, 직장과 가정에서의 일상적인 업무 흐름에 자연스럽게 녹아드는 도구를 만드는 시스템을 구축하는 것입니다.

그는 또한 현재의 세 가지 모델이 다음과 같다고 제안했습니다. 이는 더욱 폭넓은 포트폴리오의 시작일 뿐입니다.마이크로소프트는 파운드리(Foundry)를 통해 그리고 제품에 직접 추가적인 기반 모델을 출시하여 음성 및 이미지 외에도 더 많은 모달리티와 전문화된 작업을 포괄하는 자체 기능을 점진적으로 확장할 계획입니다.

해당 로드맵은 마이크로소프트가 단순히 다른 회사의 AI를 위한 플랫폼이 아니라, 오픈AI와 같은 오랜 파트너의 제품과 함께 자리매김할 수 있는 자체적인 고급 모델 구축 업체로 인식되기를 원한다는 점을 강조합니다.

OpenAI와의 관계 재정립 및 2027년 최첨단 모델 목표

이 전략에서 가장 민감한 부분 중 하나는 그것이 어떻게 관련되는지입니다. 마이크로소프트와 오픈AI의 주목받는 파트너십두 회사는 여전히 긴밀한 관계를 유지하고 있습니다. 마이크로소프트는 두 회사에 10억 달러 이상을 투자했습니다. $ 13 억 OpenAI는 Azure에 모델을 호스팅하고 GPT와 같은 시스템을 Copilot과 같은 제품에 통합합니다.

하지만 최근 보고서들은 다음과 같은 점을 지적합니다. 관계 재협상 이는 마이크로소프트가 자체 AI 연구 및 제품 라인을 병행 운영할 수 있는 여지를 더 많이 확보하게 해줍니다. 술레이만은 이러한 변화를 단절이 아닌 자연스러운 진화로 설명하며, 마치 회사가 외부 공급업체로부터 칩을 구매하면서도 자체적으로 일부 칩을 설계하는 것과 유사하다고 말했습니다.

블룸버그를 비롯한 여러 언론 보도에 따르면 마이크로소프트는 다음과 같은 목표를 가지고 있다. 2027년경까지 자체적인 대규모, 최첨단 모델을 가동할 수 있을 것이다.새롭게 발표된 시스템들은 그러한 목표보다 약간 상류에 위치해 있습니다. 즉, 아직 범용적인 최첨단 언어 모델로 자리매김하고 있는 것이 아니라, 오히려 일상적인 작업 부하에서 파트너 API에 대한 의존도를 줄이는 특수 구성 요소.

실제로 이는 마이크로소프트가 GPT-5.4와 같은 OpenAI 모델을 적절한 곳에서 계속 사용하면서 점진적으로 다른 모델로 전환할 수 있음을 의미합니다. 자체 모델로 교체 비용 대비 성능 비율이나 전략적 고려 사항이 내부 기술을 선호하는 경우라면 어디든 마찬가지입니다. 사용자는 이러한 전환이 백그라운드에서 이루어짐에 따라 기능이 더 빠르거나 저렴해지는 것을 단순히 알아차릴 수 있을 뿐입니다.

더 넓은 AI 시장에서 이러한 이중 경로는 분명한 추세를 보여줍니다. 즉, 대형 기술 기업들은 다음과 같은 것들을 추구하고 있습니다. 협력과 자립 사이의 균형신속하게 움직이기 위해 동맹을 활용하면서도 장기적으로 단일 공급업체에 종속되지 않도록 자체 역량을 구축하고 있습니다.

마이크로소프트는 이 세 가지 모델을 통해 인공지능 스택의 여러 영역, 즉 인프라와 툴부터 기초 모델 자체에 이르기까지 경쟁하려는 의지를 분명히 보여주고 있습니다. 동시에 오픈AI와 같은 파트너사가 고유한 강점을 발휘할 수 있는 공간도 남겨두고 있습니다. 고객에게는 더 많은 선택권, 경쟁력 있는 가격, 그리고 마이크로소프트 브랜드의 인공지능이 친숙한 제품과 서비스를 뒷받침하는 점진적인 변화로 이어질 수 있습니다.

트램파 드 의존성 모델의 렌구아제
관련 기사 :
La Trapa de dependencyencia de los LLM: 제한, sesgos y riesgos
관련 게시물: