- Дата публикации
Microsoft запустила свои голосовые и визуальные ИИ‑модели: быстрее транскрипция, минута голоса за секунду
Что появилось / что изменилось
Microsoft представила три новых модели под брендом Microsoft AI (MAI):
-
MAI-Transcribe-1 — первый отдельный движок транскрибации от Microsoft.
- Переводит аудио в текст на 25 языках.
- Подходит для расшифровки встреч, субтитров к видео и голосовых ассистентов.
- Microsoft заявляет скорость до 2,5 раза выше, чем у существующей Azure Fast transcription.
-
MAI-Voice-1 — генерация речи.
- Создаёт до 1 минуты аудио за 1 секунду.
- Делает акцент на естественной, эмоциональной подаче и передаче «характера» голоса.
-
MAI-Image-2 — второе поколение собственной генеративной модели изображений Microsoft.
- По словам Microsoft, генерирует картинки как минимум в 2 раза быстрее, чем предыдущее поколение.
- Улучшены детали: тон кожи, освещение, текстуры.
- Уже интегрируется в продукты Microsoft, в том числе Bing и PowerPoint.
- Среди первых корпоративных пользователей — агентство WPP.
Все три модели доступны через Microsoft Foundry и MAI Playground.
Как это работает
Microsoft выстраивает отдельную линейку мультимодальных моделей под зонтом Microsoft AI (MAI). Это не надстройка над GPT‑5 или другими внешними системами, а собственный стек.
-
MAI-Transcribe-1 — специализированная модель распознавания речи. Она заточена под быструю конвертацию аудио в текст, без лишних генеративных функций. Отдельный продукт позволяет выжать максимум по скорости и ресурсоёмкости по сравнению с общими моделями в Azure.
-
MAI-Voice-1 — генератор речи, который работает поверх текстовых входных данных. Microsoft делает упор на две вещи: скорость рендеринга (минутное аудио за секунду) и управление интонацией и эмоциями. Это важно для озвучки роликов, голосовых ассистентов и бренд‑голосов.
-
MAI-Image-2 — генеративная модель изображений второго поколения. Microsoft переработала пайплайн рендеринга, чтобы ускорить выдачу как минимум в два раза и улучшить фотореализм. Отдельный фокус — корректный тон кожи, освещение и материалы, что критично для рекламных и фэшн‑визуалов.
Технических деталей архитектуры Microsoft не раскрывает, но по поведению это типичный мультимодальный стек: один бренд MAI, разные специализированные модели под конкретные типы данных — звук, текст, изображение.
Что это значит для вас
Для продуктовых и ИТ‑команд
- Транскрибация: MAI-Transcribe-1 подойдёт для сервисов, где важны скорость и многозадачность — расшифровка созвонов, пользовательских голосовых заметок, автоматические субтитры для видео.
- Голосовые интерфейсы: MAI-Voice-1 можно использовать для голосовых ассистентов, автоответчиков, озвучки обучающих роликов и промо. Высокая скорость рендеринга упростит массовую генерацию аудио.
- Генерация визуалов: MAI-Image-2 логично тестировать в маркетинге, креативных отделах и in‑house студиях. Особенно там, где важны реалистичный тон кожи и освещение — бьюти, мода, реклама.
Если вы уже сидите на Azure, новые модели проще встроить в существующую инфраструктуру — Microsoft тащит их в Bing, PowerPoint и другие продукты, так что интеграции будут «из коробки».
Для креативных индустрий
WPP уже использует MAI-Image-2, и это хороший индикатор: модель рассчитана на кампейн‑готовые изображения, а не только на концепт‑арт. Цитата глобального креативного директора WPP Робa Рейли — модель хорошо реагирует на тонкие креативные правки и не ломает «ремесло» финальной картинки.
Если вы работаете в агентстве или in‑house креативе, имеет смысл протестировать MAI-Image-2 в сценариях:
- быстрые варианты key visual для презентаций;
- тестовые макеты кампаний до съёмки;
- адаптации под разные рынки и форматы.
Важный момент для России
Доступ к Microsoft Foundry и MAI Playground зависит от учётной записи Microsoft и региональных ограничений. Для российской аудитории возможны сложности с прямым доступом и оплатой, поэтому, скорее всего, придётся использовать корпоративную инфраструктуру за пределами России или обходные решения (включая VPN и зарубежные аккаунты).
Место на рынке
Microsoft явно усиливает ставку на собственные модели, а не только на партнёрство с OpenAI. Линейка MAI — это попытка собрать полный стек: текст, речь, изображения.
По конкретным цифрам Microsoft сравнивает новые решения только со своими же продуктами:
- MAI-Transcribe-1 в 2,5 раза быстрее, чем Azure Fast transcription.
- MAI-Image-2 генерирует изображения как минимум в 2 раза быстрее, чем предыдущее поколение образной модели Microsoft.
Чётких сравнений с Google, Amazon или тем же GPT‑5 Microsoft не даёт. Но из состава релиза видно направление:
- конкурировать с Google в распознавании речи и голосовых интерфейсах;
- закрывать потребности креативных агентств, где сейчас активно используют другие генеративные модели для изображений;
- уменьшать зависимость от внешних партнёров и выстраивать собственный бренд MAI.
Для бизнеса вывод простой: если вы уже в экосистеме Microsoft, новые модели логично тестировать первыми — по скорости и интеграциям они будут тесно связаны с Azure, Bing и PowerPoint. Если вы живёте в других стэках, имеет смысл дождаться независимых бенчмарков и оценить, насколько прирост скорости и качества оправдывает миграцию или параллельное использование.