Дата публикации
ai_products

Mistral запустила Voxtral: распознавание речи и понимание аудио дешевле популярных API

Что появилось / что изменилось

Mistral запустила линейку моделей для работы с голосом — Voxtral. Это не только распознавание речи, но и понимание аудио, ответы на вопросы и суммаризация прямо по звуку.

Есть две основные версии:

  • Voxtral Small 24B — для продакшн-сервисов и крупных нагрузок.
  • Voxtral Mini 3B — для локального и edge-развёртывания.

Обе модели:

  • распространяются под лицензией Apache 2.0;
  • доступны через API Mistral;
  • умеют работать с аудио до 30 минут для транскрипции и примерно до 40 минут для понимания содержимого, благодаря контексту на 32 000 токенов.

Отдельный продукт в API — Voxtral Mini Transcribe. Mistral оптимизировала его именно под транскрипцию. Он даёт:

  • меньше затрат и задержек, чем другие варианты Mistral;
  • качество распознавания выше, чем у OpenAI Whisper, при цене менее половины Whisper.

По позиционированию Mistral:

  • Voxtral даёт качество уровня лидеров рынка и встроенное понимание текста;
  • стоит менее половины стоимости сопоставимых API вроде ElevenLabs Scribe и других.

По бенчмаркам на распознавание речи Voxtral:

  • превосходит Whisper large-v3 на всех тестах транскрипции;
  • опережает GPT-4o mini Transcribe и Gemini 2.5 Flash на всех задачах;
  • выходит на топовый результат по английскому short-form и Mozilla Common Voice, в том числе против ElevenLabs Scribe;
  • в наборе FLEURS Voxtral Small показывает результат лучше Whisper по каждой задаче.

Основные наборы, где Mistral тестировала модель:

  • Короткие английские аудио: LibriSpeech (Clean/Other), GigaSpeech, VoxPopuli, Switchboard, CHiME-4, SPGISpeech.
  • Длинные английские аудио: Earnings-21 10-m, Earnings-22 10-m.
  • Mozilla Common Voice 15.1: английский, французский, немецкий, испанский, итальянский, португальский, нидерландский, хинди.
  • FLEURS: английский, французский, немецкий, испанский, итальянский, португальский, нидерландский, хинди, арабский.

Как это работает

Voxtral построен на языковом ядре Mistral Small 3.1. То есть это не отдельная ASR-система, а языковая модель с аудио-входом, которая понимает и звук, и текст.

Ключевые технические особенности:

  • Единый контекст на 32k токенов. Аудио преобразуется в представление, которое модель читает так же, как текст. За счёт этого Voxtral держит в памяти до 30–40 минут речи и учитывает весь диалог или лекцию целиком.

  • Непосредственное Q&A и суммаризация по аудио. Можно подать клип или длинную запись и сразу задать текстовый вопрос: модель не только расшифрует речь, но и извлечёт смысл. Не нужно отдельно гонять аудио через ASR, а затем через большую языковую модель.

  • Автоопределение языка. Voxtral сам распознаёт язык и использует одну и ту же архитектуру для английского, испанского, французского, португальского, хинди, немецкого, нидерландского, итальянского, арабского и других распространённых языков.

  • Function calling из голоса. Модель умеет по голосовым командам формировать структурированные вызовы функций и API. То есть из фразы вроде «поставь встречу на завтра в 10» она генерирует уже готовый объект для вашего бэкенда, без промежуточного парсинга текстом.

  • Сохранённые текстовые навыки. Поскольку основа — Mistral Small 3.1, Voxtral не только транскрибирует аудио, но и работает с текстом на уровне полноценной LLM: анализ, переписывание, структурирование, генерация ответов.

Отдельный профиль Voxtral Mini Transcribe в API — это сжатый вариант Mini, заточенный на максимум скорости и минимума цены для транскрипции массовых аудио.

Что это значит для вас

Если вы делаете продукт вокруг голоса, Voxtral закрывает несколько задач сразу:

  • Расшифровка звонков, интервью, подкастов и встреч до 30 минут без нарезки на куски. Подходит для CRM-систем, внутренних аналитических инструментов, сервисов заметок по созвонам.

  • Суммаризация и разбор аудио. Можно сразу получить краткое содержание митинга, выписку задач, таймкоды по темам или ответы на конкретные вопросы вроде: «кто отвечал за бюджет?», «какие дедлайны согласовали? ».

  • Мультиязычная поддержка пользователей. Если у вас глобальный продукт, Voxtral может обслуживать англоязычных и не только: испанский, французский, немецкий, португальский, итальянский, нидерландский, хинди, арабский и другие популярные языки работают в одном стеке.

  • Голосовые ассистенты и голос к бизнес-логике. За счёт function calling модель сразу отдаёт структуру для вызова ваших API. Это упрощает построение голосовых интерфейсов к банковским приложениям, сервисам бронирования, корпоративным системам.

  • Аналитика аудиоархивов. Наличие длинного контекста и встроенного понимания текста делает Voxtral полезным для поиска инсайтов в наборах звонков, подкастов, образовательных курсов.

Кому Voxtral особенно интересен:

  • стартапам и командам, которым нужна масштабируемая и недорогая голосовая аналитика;
  • компаниям, которым важно контролировать развёртывание (локально или на edge-устройствах) и использовать открытые лицензии;
  • интеграторам, которые уже строят решения на Mistral Small 3.1 и хотят добавить голосовой вход без смены стека.

Где продукт может подойти хуже:

  • если вам нужна поддержка редких языков и диалектов — Mistral делает упор на «самые широко используемые» языки;
  • если критичны голосовые эмоции, дикторское качество синтеза речи или клон голоса — Voxtral сейчас про понимание аудио, а не про генерацию.

Сервисы Mistral официально работают через их облако и API. Для прямого доступа из России может потребоваться VPN и оплата зарубежной картой или через посредника.

Место на рынке

По задачам распознавания речи и понимания аудио Voxtral целится в тот же сегмент, где сейчас работают Whisper, GPT-4o mini Transcribe, Gemini 2.5 Flash и ElevenLabs Scribe.

Из того, что даёт сама Mistral:

  • Против OpenAI Whisper:

    • Voxtral Small по бенчмаркам стабильно лучше Whisper large-v3 на английских и мультиязычных наборах.
    • Voxtral Mini Transcribe, по заявлению Mistral, обгоняет Whisper по качеству транскрипции при цене менее половины стоимости Whisper.
  • Против GPT-4o mini Transcribe и Gemini 2.5 Flash:

    • Voxtral по внутренним тестам Mistral показывает лучшие результаты по всем задачам транскрипции.
  • Против ElevenLabs Scribe:

    • Voxtral Small достигает схожего уровня качества на английском и Mozilla Common Voice.
    • При этом, по данным Mistral, их API стоит менее половины цены ElevenLabs Scribe.

С точки зрения архитектуры Voxtral отличается подходом: это не классическая «ASR + LLM»-связка, а единая модель, которая сразу понимает и звук, и текст, плюс умеет вызывать функции. Для разработчиков это шанс упростить стек: меньше сервисов, одна лицензия Apache 2.0 и контроль над развёртыванием — от облака до edge-устройств.


Читайте также

🔗 Источник: https://mistral.ai/news/voxtral
Mistral запустила Voxtral: распознавание речи и понимание аудио дешевле популярных API — VogueTech | VogueTech