- Дата публикации
Mistral представила Voxtral Transcribe 2: живой стриминг до 200 мс и дешёвая расшифровка аудио
Что появилось / что изменилось
Mistral выпустила линейку Voxtral Transcribe 2 — два новых продукта для распознавания речи:
- Voxtral Mini Transcribe V2 — пакетная расшифровка записей.
- Voxtral Realtime — стриминговый режим для живых голосовых интерфейсов.
Ключевые цифры и возможности:
-
13 языков: английский, китайский, хинди, испанский, арабский, французский, португальский, русский, немецкий, японский, корейский, итальянский, нидерландский.
-
Voxtral Realtime:
- Задержка настраивается до <200 мс.
- При задержке 2,4 секунды по точности догоняет Voxtral Mini Transcribe V2.
- При 480 мс остаётся в пределах +1–2% word error rate относительно оффлайн‑модели.
- Размер — 4 млрд параметров, можно запускать на edge‑устройствах.
- Открытые веса под лицензией Apache 2.0 на Hugging Face.
-
Voxtral Mini Transcribe V2:
- Средний word error rate ~4% на бенчмарке FLEURS.
- Цена — $0,003 за минуту аудио.
- По точности обгоняет GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal, Deepgram Nova.
- Обрабатывает аудио примерно в 3 раза быстрее ElevenLabs Scribe v2 при сопоставимом качестве и в 5 раз дешевле.
- Поддерживает записи длиной до 3 часов за один запрос.
-
Функции Mini Transcribe V2:
- Диризация: определение спикеров с таймкодами начала и конца.
- Контекстное смещение (context biasing) до 100 слов/фраз.
- Поминутные и покадровые таймкоды на уровне слов.
- Устойчивость к шуму: фабрики, колл‑центры, полевые записи.
-
Mistral добавила аудио‑песочницу в Mistral Studio:
- Загрузка до 10 файлов по до 1 ГБ каждый.
- Поддержка форматов .mp3, .wav, .m4a, .flac, .ogg.
- Переключатели диризации, уровня таймкодов и контекстных подсказок.
Как это работает
Voxtral Realtime не режет оффлайн‑модель на куски, как это часто делают конкуренты. Mistral собрала отдельную стриминговую архитектуру, которая обрабатывает звук по мере поступления, а не большими блоками.
Отсюда ключевой эффект: можно выбирать баланс между задержкой и точностью. При 2,4 секунды задержки Realtime по точности равен Voxtral Mini Transcribe V2. При 480 мс вы теряете всего 1–2% по word error rate. Если критична скорость отклика, можно опускаться до суб‑200 мс, жертвуя ещё частью точности.
Обе версии — мультиязычные. Одна и та же архитектура работает на 13 языках, без отдельных моделей под каждый. Размер 4B параметров у Realtime позволяет запускать его не только в облаке, но и на локальных серверах или мощных edge‑устройствах — это важно для приватности.
Voxtral Mini Transcribe V2 делает ставку на качество и функциональность:
- Диризация: модель не просто расшифровывает текст, а помечает, кто говорит и когда. Для пересекающейся речи она в основном фиксирует одного спикера, это нужно учитывать.
- Context biasing: вы подаёте до 100 фраз — имена, бренды, медицину, IT‑термины. Модель подтягивает распознавание под эти подсказки. Лучше всего это работает на английском, для других языков Mistral честно называет режим экспериментальным.
- Таймкоды на уровне слов: можно точно подсветить, в какой секунде прозвучало конкретное слово, что удобно для поиска по аудио и выравнивания субтитров.
Что это значит для вас
Кому и для чего полезен Voxtral Mini Transcribe V2:
- Митинги и интервью. Если вы делаете отчёты по встречам, расшифровки подкастов или журналистские интервью, вам важны диризация, таймкоды и цена. $0,003/мин при ~4% WER — это очень дёшево для уровня качества, который обгоняет крупные API от OpenAI и Google.
- Мультиязычные проекты. Если вы работаете не только с английским, Mistral обещает особенно сильное качество на неанглийских языках. Для русского это редкий плюс.
- Длинные записи. До 3 часов в одном запросе — удобно для конференций, лекций, судебных заседаний.
- Шумные среды. Если у вас колл‑центр, производство или полевые записи, Mini Transcribe V2 устойчив к шуму — можно не тратить часы на чистку звука.
Кому подойдёт Voxtral Realtime:
- Голосовые ассистенты и агенты. Если вы строите голосовой бот с живым диалогом, задержка 200–500 мс — это уже комфортный разговор, а точность близка к оффлайн‑модели.
- Субтитры в прямом эфире. При задержке 2,4 секунды Realtime даёт качество уровня Mini Transcribe V2, этого достаточно для онлайн‑ивентов и стримов.
- Приватные решения. Открытые веса под Apache 2.0 и размер 4B позволяют держать распознавание внутри своего контура: на сервере компании или даже на edge‑устройстве.
Где пока есть ограничения:
- Контекстное смещение для неанглийских языков — эксперимент. Для русского и других языков результат может быть менее предсказуемым.
- Перекрывающаяся речь. Диризация лучше всего работает, когда люди не говорят друг другу в голос. Если на митингах все перебивают друг друга, часть нюансов потеряется.
- Доступность из России. Mistral Studio и API формально доступны, но конкретно вам может понадобиться VPN и зарубежная платёжка, если вы будете платить за облачный доступ.
Если вы стартап или команда внутри корпорации, которая строит голосовой продукт, разумная стратегия —:
- Использовать Voxtral Realtime для онлайн‑диалога.
- Параллельно писать сырой звук и гнать его через Mini Transcribe V2 для финальной, более аккуратной расшифровки и аналитики.
Место на рынке
Mistral довольно агрессивно заходит на рынок транскрибации по цене и скорости.
По данным самой Mistral:
-
Точность:
- Voxtral Mini Transcribe V2 по word error rate обгоняет GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal и Deepgram Nova на бенчмарках FLEURS и TalkBank.
- Средний WER ~4% на топ‑10 языках FLEURS — это уровень дорогих флагманов, но за цену ближе к «эконом»‑сегменту.
-
Цена:
- $0,003/мин — ниже, чем у большинства крупных облачных API того же класса качества. В пересчёте это около $0,18 за час.
- По сравнению с ElevenLabs Scribe v2: Voxtral Mini Transcribe V2 стоит в 5 раз дешевле при сопоставимом качестве.
-
Скорость:
- Mini Transcribe V2 обрабатывает аудио примерно в 3 раза быстрее ElevenLabs Scribe v2.
- Realtime даёт <200 мс задержки, что достаточно для живых ассистентов и голосовых интерфейсов, где GPT‑модели пока часто тормозят.
-
Лицензирование и развёртывание:
- Voxtral Realtime выходит с открытыми весами под Apache 2.0. Это прямое преимущество перед закрытыми API вроде GPT‑4o mini и Gemini 2.5 Flash, если вам нужны on‑prem‑развёртывания и юридически понятная лицензия.
- Размер 4B параметров — компромисс между качеством и возможностью запускать модель вне огромных дата‑центров.
Слабое место по сравнению с гигантами вроде GPT‑4o — отсутствие «всё‑в‑одном» решения: Voxtral отвечает только за речь. Если вам нужен один API, который и распознаёт, и анализирует, и генерирует текст, вы всё равно будете склеивать его с другими моделями.
Если же вам важны цена за минуту, скорость, мультиязычность и возможность развёрнуть распознавание у себя, Voxtral Transcribe 2 сейчас выглядит одним из самых рациональных вариантов на рынке.