Дата публикации
ai_products

Microsoft запустила свои голосовые и визуальные ИИ‑модели: быстрее транскрипция, минута голоса за секунду

Что появилось / что изменилось

Microsoft представила три новых модели под брендом Microsoft AI (MAI):

  • MAI-Transcribe-1 — первый отдельный движок транскрибации от Microsoft.

    • Переводит аудио в текст на 25 языках.
    • Подходит для расшифровки встреч, субтитров к видео и голосовых ассистентов.
    • Microsoft заявляет скорость до 2,5 раза выше, чем у существующей Azure Fast transcription.
  • MAI-Voice-1 — генерация речи.

    • Создаёт до 1 минуты аудио за 1 секунду.
    • Делает акцент на естественной, эмоциональной подаче и передаче «характера» голоса.
  • MAI-Image-2 — второе поколение собственной генеративной модели изображений Microsoft.

    • По словам Microsoft, генерирует картинки как минимум в 2 раза быстрее, чем предыдущее поколение.
    • Улучшены детали: тон кожи, освещение, текстуры.
    • Уже интегрируется в продукты Microsoft, в том числе Bing и PowerPoint.
    • Среди первых корпоративных пользователей — агентство WPP.

Все три модели доступны через Microsoft Foundry и MAI Playground.

Как это работает

Microsoft выстраивает отдельную линейку мультимодальных моделей под зонтом Microsoft AI (MAI). Это не надстройка над GPT‑5 или другими внешними системами, а собственный стек.

  • MAI-Transcribe-1 — специализированная модель распознавания речи. Она заточена под быструю конвертацию аудио в текст, без лишних генеративных функций. Отдельный продукт позволяет выжать максимум по скорости и ресурсоёмкости по сравнению с общими моделями в Azure.

  • MAI-Voice-1 — генератор речи, который работает поверх текстовых входных данных. Microsoft делает упор на две вещи: скорость рендеринга (минутное аудио за секунду) и управление интонацией и эмоциями. Это важно для озвучки роликов, голосовых ассистентов и бренд‑голосов.

  • MAI-Image-2 — генеративная модель изображений второго поколения. Microsoft переработала пайплайн рендеринга, чтобы ускорить выдачу как минимум в два раза и улучшить фотореализм. Отдельный фокус — корректный тон кожи, освещение и материалы, что критично для рекламных и фэшн‑визуалов.

Технических деталей архитектуры Microsoft не раскрывает, но по поведению это типичный мультимодальный стек: один бренд MAI, разные специализированные модели под конкретные типы данных — звук, текст, изображение.

Что это значит для вас

Для продуктовых и ИТ‑команд

  • Транскрибация: MAI-Transcribe-1 подойдёт для сервисов, где важны скорость и многозадачность — расшифровка созвонов, пользовательских голосовых заметок, автоматические субтитры для видео.
  • Голосовые интерфейсы: MAI-Voice-1 можно использовать для голосовых ассистентов, автоответчиков, озвучки обучающих роликов и промо. Высокая скорость рендеринга упростит массовую генерацию аудио.
  • Генерация визуалов: MAI-Image-2 логично тестировать в маркетинге, креативных отделах и in‑house студиях. Особенно там, где важны реалистичный тон кожи и освещение — бьюти, мода, реклама.

Если вы уже сидите на Azure, новые модели проще встроить в существующую инфраструктуру — Microsoft тащит их в Bing, PowerPoint и другие продукты, так что интеграции будут «из коробки».

Для креативных индустрий

WPP уже использует MAI-Image-2, и это хороший индикатор: модель рассчитана на кампейн‑готовые изображения, а не только на концепт‑арт. Цитата глобального креативного директора WPP Робa Рейли — модель хорошо реагирует на тонкие креативные правки и не ломает «ремесло» финальной картинки.

Если вы работаете в агентстве или in‑house креативе, имеет смысл протестировать MAI-Image-2 в сценариях:

  • быстрые варианты key visual для презентаций;
  • тестовые макеты кампаний до съёмки;
  • адаптации под разные рынки и форматы.

Важный момент для России

Доступ к Microsoft Foundry и MAI Playground зависит от учётной записи Microsoft и региональных ограничений. Для российской аудитории возможны сложности с прямым доступом и оплатой, поэтому, скорее всего, придётся использовать корпоративную инфраструктуру за пределами России или обходные решения (включая VPN и зарубежные аккаунты).

Место на рынке

Microsoft явно усиливает ставку на собственные модели, а не только на партнёрство с OpenAI. Линейка MAI — это попытка собрать полный стек: текст, речь, изображения.

По конкретным цифрам Microsoft сравнивает новые решения только со своими же продуктами:

  • MAI-Transcribe-1 в 2,5 раза быстрее, чем Azure Fast transcription.
  • MAI-Image-2 генерирует изображения как минимум в 2 раза быстрее, чем предыдущее поколение образной модели Microsoft.

Чётких сравнений с Google, Amazon или тем же GPT‑5 Microsoft не даёт. Но из состава релиза видно направление:

  • конкурировать с Google в распознавании речи и голосовых интерфейсах;
  • закрывать потребности креативных агентств, где сейчас активно используют другие генеративные модели для изображений;
  • уменьшать зависимость от внешних партнёров и выстраивать собственный бренд MAI.

Для бизнеса вывод простой: если вы уже в экосистеме Microsoft, новые модели логично тестировать первыми — по скорости и интеграциям они будут тесно связаны с Azure, Bing и PowerPoint. Если вы живёте в других стэках, имеет смысл дождаться независимых бенчмарков и оценить, насколько прирост скорости и качества оправдывает миграцию или параллельное использование.


Читайте также