Дата публикации
ai_products

Mistral Small 4: единая открытая модель для чата, кода и картинок с контекстом 256k

Что появилось / что изменилось

Mistral представила Mistral Small 4 — новую версию своей "малой" линейки, которая объединяет сразу три направления:

  • рассуждения уровня Magistral;
  • агентный кодинг в духе Devstral;
  • быстрый instruct-режим Mistral Small.

Главное — это теперь один универсальный движок, а не набор отдельных моделей.

Ключевые цифры:

  • Архитектура Mixture of Experts: 128 экспертов, из них 4 активны на каждый токен.
  • 119 млрд параметров всего, при этом активно работает около 6 млрд параметров на токен (8 млрд с учётом эмбеддингов и выходного слоя).
  • Контекст: до 256 000 токенов — подходит для длинных диалогов и анализа больших документов.
  • Мультимодальность: вход — текст и изображения.
  • Настраиваемое "усилие рассуждения" (reasoning_effort): от быстрого ответа до подробного пошагового разбора.
  • Лицензия Apache 2.0 — открытый код и свободное коммерческое использование.

Производительность по сравнению с Mistral Small 3:

  • до −40% времени отклика в конфигурации, заточенной под низкую задержку;
  • до 3 раз больше запросов в секунду в конфигурации, заточенной под максимальный поток.

На бенчмарках LCR, LiveCodeBench и AIME 2025 Mistral Small 4 с включённым режимом рассуждений показывает результаты на уровне или выше GPT‑OSS 120B, при этом пишет заметно меньше текста.

Примеры:

  • AA LCR: Small 4 набирает 0,72 при среднем объёме ответа 1,6 тыс. символов; Qwen-модели для похожей точности тратят примерно 5,8–6,1 тыс. символов.
  • LiveCodeBench: Small 4 обгоняет GPT‑OSS 120B и при этом сокращает длину вывода примерно на 20%.

Как это работает

Mistral Small 4 — это гибридная Mixture of Experts-модель. Внутри 128 специализированных подсетей-"экспертов". На каждый токен маршрутизатор выбирает только 4 из них. За счёт этого:

  • общее число параметров большое (119B), но активная часть на токен относительно компактная (около 6B);
  • модель умеет специализироваться на разных типах задач, не раздувая вычисления для каждого запроса.

Контекст 256k позволяет подавать длинные цепочки писем, большие отчёты, кодовые базы и получать ответ без сложного шардирования контекста на стороне приложения.

Мультимодальность встроена нативно: на вход можно дать текст и картинку, модель сама объединит их в единое представление. Это полезно для сценариев вроде разбора сканов документов, интерфейсов, графиков.

Параметр reasoning_effort управляет глубиной рассуждений:

  • "none" — быстрый режим, близкий по стилю и скорости к Mistral Small 3.2;
  • "high" — подробные пошаговые рассуждения, сопоставимые по "болтливости" с Magistral.

Под капотом это, по сути, переключение между более коротким и более длинным внутренним рассуждением. Пользователь платит временем и ресурсами только тогда, когда просит сложный разбор.

Для продакшена Mistral рекомендует такой железный минимум:

  • 4× NVIDIA HGX H100, или
  • 2× NVIDIA HGX H200, или
  • 1× NVIDIA DGX B200.

Оптимальная конфигурация для крупных нагрузок:

  • 4× HGX H100 и 4× HGX H200, или
  • 2× DGX B200.

Mistral вместе с NVIDIA оптимизировала инференс под vLLM и SGLang. Плюс уже есть поддержка в llama.cpp, Transformers и других популярных фреймворках.

Что это значит для вас

Если вы:

  • строите чат-ассистента;
  • пишете инструменты для разработчиков;
  • автоматизируете аналитику документов;
  • делаете внутреннего помощника для поддержки или отчётности,

Mistral Small 4 закрывает все эти сценарии одной моделью.

Где особенно полезен Small 4:

  • Чат и офисные задачи. В режиме reasoning_effort="none" можно получить быстрые ответы в стиле Mistral Small 3.2, без лишней многословности.
  • Сложные аналитические запросы. Для задач, где важна логика (финансовые отчёты, юридические документы, сложные инструкции), имеет смысл включать высокий уровень рассуждений.
  • Кодинг и агенты. Результаты на LiveCodeBench показывают, что модель хорошо справляется с генерацией и правкой кода. Можно строить цепочки действий: анализ кода → план → правки.
  • Документы и изображения. Мультимодальный вход помогает разбирать сканы договоров, технические схемы, скриншоты интерфейсов.

Где Small 4 может быть не лучшим выбором:

  • если вам нужен максимально лёгкий движок для запуска на одном потребительском GPU или CPU — 119B параметров даже с MoE всё равно тяжёлые;
  • если критична сверхнизкая задержка на слабом железе — лучше смотреть на совсем компактные модели.

Модель открыта и поставляется под Apache 2.0, так что её можно легально дообучать и использовать в коммерческих продуктах. Для доступа к облачным развёртываниям Mistral может потребоваться VPN из России, но локальный деплой на своём железе или в стороннем облаке никто не ограничивает.

Место на рынке

Mistral Small 4 целится в тот же класс, что и крупные открытые модели вроде GPT‑OSS 120B и линейки Qwen для кода и рассуждений.

По данным самих разработчиков:

  • на LCR, LiveCodeBench и AIME 2025 Small 4 с режимом рассуждений достигает или превосходит результаты GPT‑OSS 120B;
  • при этом в среднем пишет короче: на AA LCR ему хватает около 1,6 тыс. символов против 5,8–6,1 тыс. у Qwen-моделей для схожей точности;
  • на LiveCodeBench Small 4 обгоняет GPT‑OSS 120B и экономит около 20% длины ответа.

Для бизнеса это означает меньшие расходы на инференс при той же или лучшей точности: меньше токенов — ниже чек у облачного провайдера и меньше нагрузка на свои GPU.

По железу Small 4 — не игрушка для одного десктопа. Минимум — несколько мощных GPU уровня H100/H200 или DGX B200. Это ставит модель в сегмент компаний и команд, которые уже считают TCO кластеров и могут сравнивать стоимость владения с закрытыми решениями вроде GPT‑класса или Claude‑класса.

Главное отличие Mistral Small 4 среди крупных открытых моделей — сочетание:

  • одного универсального ядра вместо зоопарка узкоспециализированных версий;
  • открытой лицензии Apache 2.0;
  • и явного фокуса на эффективности "точность на символ", что критично при масштабных развёртываниях.

Читайте также

Mistral Small 4: единая открытая модель для чата, кода и картинок с контекстом 256k — VogueTech | VogueTech