- Дата публикации
Mistral запустила Voxtral: распознавание речи и понимание аудио дешевле популярных API
Что появилось / что изменилось
Mistral запустила линейку моделей для работы с голосом — Voxtral. Это не только распознавание речи, но и понимание аудио, ответы на вопросы и суммаризация прямо по звуку.
Есть две основные версии:
- Voxtral Small 24B — для продакшн-сервисов и крупных нагрузок.
- Voxtral Mini 3B — для локального и edge-развёртывания.
Обе модели:
- распространяются под лицензией Apache 2.0;
- доступны через API Mistral;
- умеют работать с аудио до 30 минут для транскрипции и примерно до 40 минут для понимания содержимого, благодаря контексту на 32 000 токенов.
Отдельный продукт в API — Voxtral Mini Transcribe. Mistral оптимизировала его именно под транскрипцию. Он даёт:
- меньше затрат и задержек, чем другие варианты Mistral;
- качество распознавания выше, чем у OpenAI Whisper, при цене менее половины Whisper.
По позиционированию Mistral:
- Voxtral даёт качество уровня лидеров рынка и встроенное понимание текста;
- стоит менее половины стоимости сопоставимых API вроде ElevenLabs Scribe и других.
По бенчмаркам на распознавание речи Voxtral:
- превосходит Whisper large-v3 на всех тестах транскрипции;
- опережает GPT-4o mini Transcribe и Gemini 2.5 Flash на всех задачах;
- выходит на топовый результат по английскому short-form и Mozilla Common Voice, в том числе против ElevenLabs Scribe;
- в наборе FLEURS Voxtral Small показывает результат лучше Whisper по каждой задаче.
Основные наборы, где Mistral тестировала модель:
- Короткие английские аудио: LibriSpeech (Clean/Other), GigaSpeech, VoxPopuli, Switchboard, CHiME-4, SPGISpeech.
- Длинные английские аудио: Earnings-21 10-m, Earnings-22 10-m.
- Mozilla Common Voice 15.1: английский, французский, немецкий, испанский, итальянский, португальский, нидерландский, хинди.
- FLEURS: английский, французский, немецкий, испанский, итальянский, португальский, нидерландский, хинди, арабский.
Как это работает
Voxtral построен на языковом ядре Mistral Small 3.1. То есть это не отдельная ASR-система, а языковая модель с аудио-входом, которая понимает и звук, и текст.
Ключевые технические особенности:
-
Единый контекст на 32k токенов. Аудио преобразуется в представление, которое модель читает так же, как текст. За счёт этого Voxtral держит в памяти до 30–40 минут речи и учитывает весь диалог или лекцию целиком.
-
Непосредственное Q&A и суммаризация по аудио. Можно подать клип или длинную запись и сразу задать текстовый вопрос: модель не только расшифрует речь, но и извлечёт смысл. Не нужно отдельно гонять аудио через ASR, а затем через большую языковую модель.
-
Автоопределение языка. Voxtral сам распознаёт язык и использует одну и ту же архитектуру для английского, испанского, французского, португальского, хинди, немецкого, нидерландского, итальянского, арабского и других распространённых языков.
-
Function calling из голоса. Модель умеет по голосовым командам формировать структурированные вызовы функций и API. То есть из фразы вроде «поставь встречу на завтра в 10» она генерирует уже готовый объект для вашего бэкенда, без промежуточного парсинга текстом.
-
Сохранённые текстовые навыки. Поскольку основа — Mistral Small 3.1, Voxtral не только транскрибирует аудио, но и работает с текстом на уровне полноценной LLM: анализ, переписывание, структурирование, генерация ответов.
Отдельный профиль Voxtral Mini Transcribe в API — это сжатый вариант Mini, заточенный на максимум скорости и минимума цены для транскрипции массовых аудио.
Что это значит для вас
Если вы делаете продукт вокруг голоса, Voxtral закрывает несколько задач сразу:
-
Расшифровка звонков, интервью, подкастов и встреч до 30 минут без нарезки на куски. Подходит для CRM-систем, внутренних аналитических инструментов, сервисов заметок по созвонам.
-
Суммаризация и разбор аудио. Можно сразу получить краткое содержание митинга, выписку задач, таймкоды по темам или ответы на конкретные вопросы вроде: «кто отвечал за бюджет?», «какие дедлайны согласовали? ».
-
Мультиязычная поддержка пользователей. Если у вас глобальный продукт, Voxtral может обслуживать англоязычных и не только: испанский, французский, немецкий, португальский, итальянский, нидерландский, хинди, арабский и другие популярные языки работают в одном стеке.
-
Голосовые ассистенты и голос к бизнес-логике. За счёт function calling модель сразу отдаёт структуру для вызова ваших API. Это упрощает построение голосовых интерфейсов к банковским приложениям, сервисам бронирования, корпоративным системам.
-
Аналитика аудиоархивов. Наличие длинного контекста и встроенного понимания текста делает Voxtral полезным для поиска инсайтов в наборах звонков, подкастов, образовательных курсов.
Кому Voxtral особенно интересен:
- стартапам и командам, которым нужна масштабируемая и недорогая голосовая аналитика;
- компаниям, которым важно контролировать развёртывание (локально или на edge-устройствах) и использовать открытые лицензии;
- интеграторам, которые уже строят решения на Mistral Small 3.1 и хотят добавить голосовой вход без смены стека.
Где продукт может подойти хуже:
- если вам нужна поддержка редких языков и диалектов — Mistral делает упор на «самые широко используемые» языки;
- если критичны голосовые эмоции, дикторское качество синтеза речи или клон голоса — Voxtral сейчас про понимание аудио, а не про генерацию.
Сервисы Mistral официально работают через их облако и API. Для прямого доступа из России может потребоваться VPN и оплата зарубежной картой или через посредника.
Место на рынке
По задачам распознавания речи и понимания аудио Voxtral целится в тот же сегмент, где сейчас работают Whisper, GPT-4o mini Transcribe, Gemini 2.5 Flash и ElevenLabs Scribe.
Из того, что даёт сама Mistral:
-
Против OpenAI Whisper:
- Voxtral Small по бенчмаркам стабильно лучше Whisper large-v3 на английских и мультиязычных наборах.
- Voxtral Mini Transcribe, по заявлению Mistral, обгоняет Whisper по качеству транскрипции при цене менее половины стоимости Whisper.
-
Против GPT-4o mini Transcribe и Gemini 2.5 Flash:
- Voxtral по внутренним тестам Mistral показывает лучшие результаты по всем задачам транскрипции.
-
Против ElevenLabs Scribe:
- Voxtral Small достигает схожего уровня качества на английском и Mozilla Common Voice.
- При этом, по данным Mistral, их API стоит менее половины цены ElevenLabs Scribe.
С точки зрения архитектуры Voxtral отличается подходом: это не классическая «ASR + LLM»-связка, а единая модель, которая сразу понимает и звук, и текст, плюс умеет вызывать функции. Для разработчиков это шанс упростить стек: меньше сервисов, одна лицензия Apache 2.0 и контроль над развёртыванием — от облака до edge-устройств.