Mistral представила Voxtral Transcribe 2: живой стриминг до 200 мс и дешёвая расшифровка аудио — VogueTech

Что появилось / что изменилось

Mistral выпустила линейку Voxtral Transcribe 2 — два новых продукта для распознавания речи:

Voxtral Mini Transcribe V2 — пакетная расшифровка записей.
Voxtral Realtime — стриминговый режим для живых голосовых интерфейсов.

Ключевые цифры и возможности:

13 языков: английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский, нидерландский.
Voxtral Realtime:
- Задержка настраивается до <200 мс.
- При задержке 2,4 секунды по точности догоняет Voxtral Mini Transcribe V2.
- При 480 мс остаётся в пределах +1–2% word error rate относительно оффлайн‑модели.
- Размер — 4 млрд параметров, можно запускать на edge‑устройствах.
- Открытые веса под лицензией Apache 2.0 на Hugging Face.
Voxtral Mini Transcribe V2:
- Средний word error rate ~4% на бенчмарке FLEURS.
- Цена — $0,003 за минуту аудио.
- По точности обгоняет GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova.
- Обрабатывает аудио примерно в 3 раза быстрее ElevenLabs Scribe v2 при сопоставимом качестве и в 5 раз дешевле.
- Поддерживает записи длиной до 3 часов за один запрос.
Функции Mini Transcribe V2:
- Диризация: определение спикеров с таймкодами начала и конца.
- Контекстное смещение (context biasing) до 100 слов/фраз.
- Поминутные и покадровые таймкоды на уровне слов.
- Устойчивость к шуму: фабрики, колл‑центры, полевые записи.
Mistral добавила аудио‑песочницу в Mistral Studio:
- Загрузка до 10 файлов по до 1 ГБ каждый.
- Поддержка форматов .mp3, .wav, .m4a, .flac, .ogg.
- Переключатели диризации, уровня таймкодов и контекстных подсказок.

Как это работает

Voxtral Realtime не режет оффлайн‑модель на куски, как это часто делают конкуренты. Mistral собрала отдельную стриминговую архитектуру, которая обрабатывает звук по мере поступления, а не большими блоками.

Отсюда ключевой эффект: можно выбирать баланс между задержкой и точностью. При 2,4 секунды задержки Realtime по точности равен Voxtral Mini Transcribe V2. При 480 мс вы теряете всего 1–2% по word error rate. Если критична скорость отклика, можно опускаться до суб‑200 мс, жертвуя ещё частью точности.

Обе версии — мультиязычные. Одна и та же архитектура работает на 13 языках, без отдельных моделей под каждый. Размер 4B параметров у Realtime позволяет запускать его не только в облаке, но и на локальных серверах или мощных edge‑устройствах — это важно для приватности.

Voxtral Mini Transcribe V2 делает ставку на качество и функциональность:

Диризация: модель не просто расшифровывает текст, а помечает, кто говорит и когда. Для пересекающейся речи она в основном фиксирует одного спикера, это нужно учитывать.
Context biasing: вы подаёте до 100 фраз — имена, бренды, медицину, IT‑термины. Модель подтягивает распознавание под эти подсказки. Лучше всего это работает на английском, для других языков Mistral честно называет режим экспериментальным.
Таймкоды на уровне слов: можно точно подсветить, в какой секунде прозвучало конкретное слово, что удобно для поиска по аудио и выравнивания субтитров.

Что это значит для вас

Кому и для чего полезен Voxtral Mini Transcribe V2:

Митинги и интервью. Если вы делаете отчёты по встречам, расшифровки подкастов или журналистские интервью, вам важны диризация, таймкоды и цена. $0,003/мин при ~4% WER — это очень дёшево для уровня качества, который обгоняет крупные API от OpenAI и Google.
Мультиязычные проекты. Если вы работаете не только с английским, Mistral обещает особенно сильное качество на неанглийских языках. Для русского это редкий плюс.
Длинные записи. До 3 часов в одном запросе — удобно для конференций, лекций, судебных заседаний.
Шумные среды. Если у вас колл‑центр, производство или полевые записи, Mini Transcribe V2 устойчив к шуму — можно не тратить часы на чистку звука.

Кому подойдёт Voxtral Realtime:

Голосовые ассистенты и агенты. Если вы строите голосовой бот с живым диалогом, задержка 200–500 мс — это уже комфортный разговор, а точность близка к оффлайн‑модели.
Субтитры в прямом эфире. При задержке 2,4 секунды Realtime даёт качество уровня Mini Transcribe V2, этого достаточно для онлайн‑ивентов и стримов.
Приватные решения. Открытые веса под Apache 2.0 и размер 4B позволяют держать распознавание внутри своего контура: на сервере компании или даже на edge‑устройстве.

Где пока есть ограничения:

Контекстное смещение для неанглийских языков — эксперимент. Для русского и других языков результат может быть менее предсказуемым.
Перекрывающаяся речь. Диризация лучше всего работает, когда люди не говорят друг другу в голос. Если на митингах все перебивают друг друга, часть нюансов потеряется.
Доступность из России. Mistral Studio и API формально доступны, но конкретно вам может понадобиться VPN и зарубежная платёжка, если вы будете платить за облачный доступ.

Если вы стартап или команда внутри корпорации, которая строит голосовой продукт, разумная стратегия —:

Использовать Voxtral Realtime для онлайн‑диалога.
Параллельно писать сырой звук и гнать его через Mini Transcribe V2 для финальной, более аккуратной расшифровки и аналитики.

Место на рынке

Mistral довольно агрессивно заходит на рынок транскрибации по цене и скорости.

По данным самой Mistral:

Точность:
- Voxtral Mini Transcribe V2 по word error rate обгоняет GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova на бенчмарках FLEURS и TalkBank.
- Средний WER ~4% на топ‑10 языках FLEURS — это уровень дорогих флагманов, но за цену ближе к «эконом»‑сегменту.
Цена:
- $0,003/мин — ниже, чем у большинства крупных облачных API того же класса качества. В пересчёте это около $0,18 за час.
- По сравнению с ElevenLabs Scribe v2: Voxtral Mini Transcribe V2 стоит в 5 раз дешевле при сопоставимом качестве.
Скорость:
- Mini Transcribe V2 обрабатывает аудио примерно в 3 раза быстрее ElevenLabs Scribe v2.
- Realtime даёт <200 мс задержки, что достаточно для живых ассистентов и голосовых интерфейсов, где GPT‑модели пока часто тормозят.
Лицензирование и развёртывание:
- Voxtral Realtime выходит с открытыми весами под Apache 2.0. Это прямое преимущество перед закрытыми API вроде GPT‑4o mini и Gemini 2.5 Flash, если вам нужны on‑prem‑развёртывания и юридически понятная лицензия.
- Размер 4B параметров — компромисс между качеством и возможностью запускать модель вне огромных дата‑центров.

Слабое место по сравнению с гигантами вроде GPT‑4o — отсутствие «всё‑в‑одном» решения: Voxtral отвечает только за речь. Если вам нужен один API, который и распознаёт, и анализирует, и генерирует текст, вы всё равно будете склеивать его с другими моделями.

Если же вам важны цена за минуту, скорость, мультиязычность и возможность развёрнуть распознавание у себя, Voxtral Transcribe 2 сейчас выглядит одним из самых рациональных вариантов на рынке.