- Дата публикации
Mistral Small 4: единая открытая модель для чата, кода и картинок с контекстом 256k
Что появилось / что изменилось
Mistral представила Mistral Small 4 — новую версию своей "малой" линейки, которая объединяет сразу три направления:
- рассуждения уровня Magistral;
- агентный кодинг в духе Devstral;
- быстрый instruct-режим Mistral Small.
Главное — это теперь один универсальный движок, а не набор отдельных моделей.
Ключевые цифры:
- Архитектура Mixture of Experts: 128 экспертов, из них 4 активны на каждый токен.
- 119 млрд параметров всего, при этом активно работает около 6 млрд параметров на токен (8 млрд с учётом эмбеддингов и выходного слоя).
- Контекст: до 256 000 токенов — подходит для длинных диалогов и анализа больших документов.
- Мультимодальность: вход — текст и изображения.
- Настраиваемое "усилие рассуждения" (reasoning_effort): от быстрого ответа до подробного пошагового разбора.
- Лицензия Apache 2.0 — открытый код и свободное коммерческое использование.
Производительность по сравнению с Mistral Small 3:
- до −40% времени отклика в конфигурации, заточенной под низкую задержку;
- до 3 раз больше запросов в секунду в конфигурации, заточенной под максимальный поток.
На бенчмарках LCR, LiveCodeBench и AIME 2025 Mistral Small 4 с включённым режимом рассуждений показывает результаты на уровне или выше GPT‑OSS 120B, при этом пишет заметно меньше текста.
Примеры:
- AA LCR: Small 4 набирает 0,72 при среднем объёме ответа 1,6 тыс. символов; Qwen-модели для похожей точности тратят примерно 5,8–6,1 тыс. символов.
- LiveCodeBench: Small 4 обгоняет GPT‑OSS 120B и при этом сокращает длину вывода примерно на 20%.
Как это работает
Mistral Small 4 — это гибридная Mixture of Experts-модель. Внутри 128 специализированных подсетей-"экспертов". На каждый токен маршрутизатор выбирает только 4 из них. За счёт этого:
- общее число параметров большое (119B), но активная часть на токен относительно компактная (около 6B);
- модель умеет специализироваться на разных типах задач, не раздувая вычисления для каждого запроса.
Контекст 256k позволяет подавать длинные цепочки писем, большие отчёты, кодовые базы и получать ответ без сложного шардирования контекста на стороне приложения.
Мультимодальность встроена нативно: на вход можно дать текст и картинку, модель сама объединит их в единое представление. Это полезно для сценариев вроде разбора сканов документов, интерфейсов, графиков.
Параметр reasoning_effort управляет глубиной рассуждений:
"none"— быстрый режим, близкий по стилю и скорости к Mistral Small 3.2;"high"— подробные пошаговые рассуждения, сопоставимые по "болтливости" с Magistral.
Под капотом это, по сути, переключение между более коротким и более длинным внутренним рассуждением. Пользователь платит временем и ресурсами только тогда, когда просит сложный разбор.
Для продакшена Mistral рекомендует такой железный минимум:
- 4× NVIDIA HGX H100, или
- 2× NVIDIA HGX H200, или
- 1× NVIDIA DGX B200.
Оптимальная конфигурация для крупных нагрузок:
- 4× HGX H100 и 4× HGX H200, или
- 2× DGX B200.
Mistral вместе с NVIDIA оптимизировала инференс под vLLM и SGLang. Плюс уже есть поддержка в llama.cpp, Transformers и других популярных фреймворках.
Что это значит для вас
Если вы:
- строите чат-ассистента;
- пишете инструменты для разработчиков;
- автоматизируете аналитику документов;
- делаете внутреннего помощника для поддержки или отчётности,
Mistral Small 4 закрывает все эти сценарии одной моделью.
Где особенно полезен Small 4:
- Чат и офисные задачи. В режиме
reasoning_effort="none"можно получить быстрые ответы в стиле Mistral Small 3.2, без лишней многословности. - Сложные аналитические запросы. Для задач, где важна логика (финансовые отчёты, юридические документы, сложные инструкции), имеет смысл включать высокий уровень рассуждений.
- Кодинг и агенты. Результаты на LiveCodeBench показывают, что модель хорошо справляется с генерацией и правкой кода. Можно строить цепочки действий: анализ кода → план → правки.
- Документы и изображения. Мультимодальный вход помогает разбирать сканы договоров, технические схемы, скриншоты интерфейсов.
Где Small 4 может быть не лучшим выбором:
- если вам нужен максимально лёгкий движок для запуска на одном потребительском GPU или CPU — 119B параметров даже с MoE всё равно тяжёлые;
- если критична сверхнизкая задержка на слабом железе — лучше смотреть на совсем компактные модели.
Модель открыта и поставляется под Apache 2.0, так что её можно легально дообучать и использовать в коммерческих продуктах. Для доступа к облачным развёртываниям Mistral может потребоваться VPN из России, но локальный деплой на своём железе или в стороннем облаке никто не ограничивает.
Место на рынке
Mistral Small 4 целится в тот же класс, что и крупные открытые модели вроде GPT‑OSS 120B и линейки Qwen для кода и рассуждений.
По данным самих разработчиков:
- на LCR, LiveCodeBench и AIME 2025 Small 4 с режимом рассуждений достигает или превосходит результаты GPT‑OSS 120B;
- при этом в среднем пишет короче: на AA LCR ему хватает около 1,6 тыс. символов против 5,8–6,1 тыс. у Qwen-моделей для схожей точности;
- на LiveCodeBench Small 4 обгоняет GPT‑OSS 120B и экономит около 20% длины ответа.
Для бизнеса это означает меньшие расходы на инференс при той же или лучшей точности: меньше токенов — ниже чек у облачного провайдера и меньше нагрузка на свои GPU.
По железу Small 4 — не игрушка для одного десктопа. Минимум — несколько мощных GPU уровня H100/H200 или DGX B200. Это ставит модель в сегмент компаний и команд, которые уже считают TCO кластеров и могут сравнивать стоимость владения с закрытыми решениями вроде GPT‑класса или Claude‑класса.
Главное отличие Mistral Small 4 среди крупных открытых моделей — сочетание:
- одного универсального ядра вместо зоопарка узкоспециализированных версий;
- открытой лицензии Apache 2.0;
- и явного фокуса на эффективности "точность на символ", что критично при масштабных развёртываниях.