Mistral запустила Voxtral: распознавание речи и понимание аудио дешевле популярных API — VogueTech

Что появилось / что изменилось

Mistral запустила линейку моделей для работы с голосом — Voxtral. Это не только распознавание речи, но и понимание аудио, ответы на вопросы и суммаризация прямо по звуку.

Есть две основные версии:

Voxtral Small 24B — для продакшн-сервисов и крупных нагрузок.
Voxtral Mini 3B — для локального и edge-развёртывания.

Обе модели:

распространяются под лицензией Apache 2.0;
доступны через API Mistral;
умеют работать с аудио до 30 минут для транскрипции и примерно до 40 минут для понимания содержимого, благодаря контексту на 32 000 токенов.

Отдельный продукт в API — Voxtral Mini Transcribe. Mistral оптимизировала его именно под транскрипцию. Он даёт:

меньше затрат и задержек, чем другие варианты Mistral;
качество распознавания выше, чем у OpenAI Whisper, при цене менее половины Whisper.

По позиционированию Mistral:

Voxtral даёт качество уровня лидеров рынка и встроенное понимание текста;
стоит менее половины стоимости сопоставимых API вроде ElevenLabs Scribe и других.

По бенчмаркам на распознавание речи Voxtral:

превосходит Whisper large-v3 на всех тестах транскрипции;
опережает GPT-4o mini Transcribe и Gemini 2.5 Flash на всех задачах;
выходит на топовый результат по английскому short-form и Mozilla Common Voice, в том числе против ElevenLabs Scribe;
в наборе FLEURS Voxtral Small показывает результат лучше Whisper по каждой задаче.

Основные наборы, где Mistral тестировала модель:

Короткие английские аудио: LibriSpeech (Clean/Other), GigaSpeech, VoxPopuli, Switchboard, CHiME-4, SPGISpeech.
Длинные английские аудио: Earnings-21 10-m, Earnings-22 10-m.
Mozilla Common Voice 15.1: английский, французский, немецкий, испанский, итальянский, португальский, нидерландский, хинди.
FLEURS: английский, французский, немецкий, испанский, итальянский, португальский, нидерландский, хинди, арабский.

Как это работает

Voxtral построен на языковом ядре Mistral Small 3.1. То есть это не отдельная ASR-система, а языковая модель с аудио-входом, которая понимает и звук, и текст.

Ключевые технические особенности:

Единый контекст на 32k токенов. Аудио преобразуется в представление, которое модель читает так же, как текст. За счёт этого Voxtral держит в памяти до 30–40 минут речи и учитывает весь диалог или лекцию целиком.
Непосредственное Q&A и суммаризация по аудио. Можно подать клип или длинную запись и сразу задать текстовый вопрос: модель не только расшифрует речь, но и извлечёт смысл. Не нужно отдельно гонять аудио через ASR, а затем через большую языковую модель.
Автоопределение языка. Voxtral сам распознаёт язык и использует одну и ту же архитектуру для английского, испанского, французского, португальского, хинди, немецкого, нидерландского, итальянского, арабского и других распространённых языков.
Function calling из голоса. Модель умеет по голосовым командам формировать структурированные вызовы функций и API. То есть из фразы вроде «поставь встречу на завтра в 10» она генерирует уже готовый объект для вашего бэкенда, без промежуточного парсинга текстом.
Сохранённые текстовые навыки. Поскольку основа — Mistral Small 3.1, Voxtral не только транскрибирует аудио, но и работает с текстом на уровне полноценной LLM: анализ, переписывание, структурирование, генерация ответов.

Отдельный профиль Voxtral Mini Transcribe в API — это сжатый вариант Mini, заточенный на максимум скорости и минимума цены для транскрипции массовых аудио.

Что это значит для вас

Если вы делаете продукт вокруг голоса, Voxtral закрывает несколько задач сразу:

Расшифровка звонков, интервью, подкастов и встреч до 30 минут без нарезки на куски. Подходит для CRM-систем, внутренних аналитических инструментов, сервисов заметок по созвонам.
Суммаризация и разбор аудио. Можно сразу получить краткое содержание митинга, выписку задач, таймкоды по темам или ответы на конкретные вопросы вроде: «кто отвечал за бюджет?», «какие дедлайны согласовали? ».
Мультиязычная поддержка пользователей. Если у вас глобальный продукт, Voxtral может обслуживать англоязычных и не только: испанский, французский, немецкий, португальский, итальянский, нидерландский, хинди, арабский и другие популярные языки работают в одном стеке.
Голосовые ассистенты и голос к бизнес-логике. За счёт function calling модель сразу отдаёт структуру для вызова ваших API. Это упрощает построение голосовых интерфейсов к банковским приложениям, сервисам бронирования, корпоративным системам.
Аналитика аудиоархивов. Наличие длинного контекста и встроенного понимания текста делает Voxtral полезным для поиска инсайтов в наборах звонков, подкастов, образовательных курсов.

Кому Voxtral особенно интересен:

стартапам и командам, которым нужна масштабируемая и недорогая голосовая аналитика;
компаниям, которым важно контролировать развёртывание (локально или на edge-устройствах) и использовать открытые лицензии;
интеграторам, которые уже строят решения на Mistral Small 3.1 и хотят добавить голосовой вход без смены стека.

Где продукт может подойти хуже:

если вам нужна поддержка редких языков и диалектов — Mistral делает упор на «самые широко используемые» языки;
если критичны голосовые эмоции, дикторское качество синтеза речи или клон голоса — Voxtral сейчас про понимание аудио, а не про генерацию.

Сервисы Mistral официально работают через их облако и API. Для прямого доступа из России может потребоваться VPN и оплата зарубежной картой или через посредника.

Место на рынке

По задачам распознавания речи и понимания аудио Voxtral целится в тот же сегмент, где сейчас работают Whisper, GPT-4o mini Transcribe, Gemini 2.5 Flash и ElevenLabs Scribe.

Из того, что даёт сама Mistral:

Против OpenAI Whisper:
- Voxtral Small по бенчмаркам стабильно лучше Whisper large-v3 на английских и мультиязычных наборах.
- Voxtral Mini Transcribe, по заявлению Mistral, обгоняет Whisper по качеству транскрипции при цене менее половины стоимости Whisper.
Против GPT-4o mini Transcribe и Gemini 2.5 Flash:
- Voxtral по внутренним тестам Mistral показывает лучшие результаты по всем задачам транскрипции.
Против ElevenLabs Scribe:
- Voxtral Small достигает схожего уровня качества на английском и Mozilla Common Voice.
- При этом, по данным Mistral, их API стоит менее половины цены ElevenLabs Scribe.

С точки зрения архитектуры Voxtral отличается подходом: это не классическая «ASR + LLM»-связка, а единая модель, которая сразу понимает и звук, и текст, плюс умеет вызывать функции. Для разработчиков это шанс упростить стек: меньше сервисов, одна лицензия Apache 2.0 и контроль над развёртыванием — от облака до edge-устройств.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также