Дата публикации
ai_products

Mistral представила Voxtral Transcribe 2: живой стриминг до 200 мс и дешёвая расшифровка аудио

Что появилось / что изменилось

Mistral выпустила линейку Voxtral Transcribe 2 — два новых продукта для распознавания речи:

  • Voxtral Mini Transcribe V2 — пакетная расшифровка записей.
  • Voxtral Realtime — стриминговый режим для живых голосовых интерфейсов.

Ключевые цифры и возможности:

  • 13 языков: английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский, нидерландский.

  • Voxtral Realtime:

    • Задержка настраивается до <200 мс.
    • При задержке 2,4 секунды по точности догоняет Voxtral Mini Transcribe V2.
    • При 480 мс остаётся в пределах +1–2% word error rate относительно оффлайн‑модели.
    • Размер — 4 млрд параметров, можно запускать на edge‑устройствах.
    • Открытые веса под лицензией Apache 2.0 на Hugging Face.
  • Voxtral Mini Transcribe V2:

    • Средний word error rate ~4% на бенчмарке FLEURS.
    • Цена — $0,003 за минуту аудио.
    • По точности обгоняет GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova.
    • Обрабатывает аудио примерно в 3 раза быстрее ElevenLabs Scribe v2 при сопоставимом качестве и в 5 раз дешевле.
    • Поддерживает записи длиной до 3 часов за один запрос.
  • Функции Mini Transcribe V2:

    • Диризация: определение спикеров с таймкодами начала и конца.
    • Контекстное смещение (context biasing) до 100 слов/фраз.
    • Поминутные и покадровые таймкоды на уровне слов.
    • Устойчивость к шуму: фабрики, колл‑центры, полевые записи.
  • Mistral добавила аудио‑песочницу в Mistral Studio:

    • Загрузка до 10 файлов по до 1 ГБ каждый.
    • Поддержка форматов .mp3, .wav, .m4a, .flac, .ogg.
    • Переключатели диризации, уровня таймкодов и контекстных подсказок.

Как это работает

Voxtral Realtime не режет оффлайн‑модель на куски, как это часто делают конкуренты. Mistral собрала отдельную стриминговую архитектуру, которая обрабатывает звук по мере поступления, а не большими блоками.

Отсюда ключевой эффект: можно выбирать баланс между задержкой и точностью. При 2,4 секунды задержки Realtime по точности равен Voxtral Mini Transcribe V2. При 480 мс вы теряете всего 1–2% по word error rate. Если критична скорость отклика, можно опускаться до суб‑200 мс, жертвуя ещё частью точности.

Обе версии — мультиязычные. Одна и та же архитектура работает на 13 языках, без отдельных моделей под каждый. Размер 4B параметров у Realtime позволяет запускать его не только в облаке, но и на локальных серверах или мощных edge‑устройствах — это важно для приватности.

Voxtral Mini Transcribe V2 делает ставку на качество и функциональность:

  • Диризация: модель не просто расшифровывает текст, а помечает, кто говорит и когда. Для пересекающейся речи она в основном фиксирует одного спикера, это нужно учитывать.
  • Context biasing: вы подаёте до 100 фраз — имена, бренды, медицину, IT‑термины. Модель подтягивает распознавание под эти подсказки. Лучше всего это работает на английском, для других языков Mistral честно называет режим экспериментальным.
  • Таймкоды на уровне слов: можно точно подсветить, в какой секунде прозвучало конкретное слово, что удобно для поиска по аудио и выравнивания субтитров.

Что это значит для вас

Кому и для чего полезен Voxtral Mini Transcribe V2:

  • Митинги и интервью. Если вы делаете отчёты по встречам, расшифровки подкастов или журналистские интервью, вам важны диризация, таймкоды и цена. $0,003/мин при ~4% WER — это очень дёшево для уровня качества, который обгоняет крупные API от OpenAI и Google.
  • Мультиязычные проекты. Если вы работаете не только с английским, Mistral обещает особенно сильное качество на неанглийских языках. Для русского это редкий плюс.
  • Длинные записи. До 3 часов в одном запросе — удобно для конференций, лекций, судебных заседаний.
  • Шумные среды. Если у вас колл‑центр, производство или полевые записи, Mini Transcribe V2 устойчив к шуму — можно не тратить часы на чистку звука.

Кому подойдёт Voxtral Realtime:

  • Голосовые ассистенты и агенты. Если вы строите голосовой бот с живым диалогом, задержка 200–500 мс — это уже комфортный разговор, а точность близка к оффлайн‑модели.
  • Субтитры в прямом эфире. При задержке 2,4 секунды Realtime даёт качество уровня Mini Transcribe V2, этого достаточно для онлайн‑ивентов и стримов.
  • Приватные решения. Открытые веса под Apache 2.0 и размер 4B позволяют держать распознавание внутри своего контура: на сервере компании или даже на edge‑устройстве.

Где пока есть ограничения:

  • Контекстное смещение для неанглийских языков — эксперимент. Для русского и других языков результат может быть менее предсказуемым.
  • Перекрывающаяся речь. Диризация лучше всего работает, когда люди не говорят друг другу в голос. Если на митингах все перебивают друг друга, часть нюансов потеряется.
  • Доступность из России. Mistral Studio и API формально доступны, но конкретно вам может понадобиться VPN и зарубежная платёжка, если вы будете платить за облачный доступ.

Если вы стартап или команда внутри корпорации, которая строит голосовой продукт, разумная стратегия —:

  • Использовать Voxtral Realtime для онлайн‑диалога.
  • Параллельно писать сырой звук и гнать его через Mini Transcribe V2 для финальной, более аккуратной расшифровки и аналитики.

Место на рынке

Mistral довольно агрессивно заходит на рынок транскрибации по цене и скорости.

По данным самой Mistral:

  • Точность:

    • Voxtral Mini Transcribe V2 по word error rate обгоняет GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova на бенчмарках FLEURS и TalkBank.
    • Средний WER ~4% на топ‑10 языках FLEURS — это уровень дорогих флагманов, но за цену ближе к «эконом»‑сегменту.
  • Цена:

    • $0,003/мин — ниже, чем у большинства крупных облачных API того же класса качества. В пересчёте это около $0,18 за час.
    • По сравнению с ElevenLabs Scribe v2: Voxtral Mini Transcribe V2 стоит в 5 раз дешевле при сопоставимом качестве.
  • Скорость:

    • Mini Transcribe V2 обрабатывает аудио примерно в 3 раза быстрее ElevenLabs Scribe v2.
    • Realtime даёт <200 мс задержки, что достаточно для живых ассистентов и голосовых интерфейсов, где GPT‑модели пока часто тормозят.
  • Лицензирование и развёртывание:

    • Voxtral Realtime выходит с открытыми весами под Apache 2.0. Это прямое преимущество перед закрытыми API вроде GPT‑4o mini и Gemini 2.5 Flash, если вам нужны on‑prem‑развёртывания и юридически понятная лицензия.
    • Размер 4B параметров — компромисс между качеством и возможностью запускать модель вне огромных дата‑центров.

Слабое место по сравнению с гигантами вроде GPT‑4o — отсутствие «всё‑в‑одном» решения: Voxtral отвечает только за речь. Если вам нужен один API, который и распознаёт, и анализирует, и генерирует текст, вы всё равно будете склеивать его с другими моделями.

Если же вам важны цена за минуту, скорость, мультиязычность и возможность развёрнуть распознавание у себя, Voxtral Transcribe 2 сейчас выглядит одним из самых рациональных вариантов на рынке.

Mistral представила Voxtral Transcribe 2: живой стриминг до 200 мс и дешёвая расшифровка аудио — VogueTech | VogueTech