- Дата публикации
Mistral 3: большая открытая модель и «карманные» Ministral для локального ИИ
Что появилось / что изменилось
Mistral AI выкатила линейку Mistral 3:
-
Mistral Large 3 — самая мощная модель компании:
- архитектура sparse mixture-of-experts
- 41 млрд активных параметров, 675 млрд общих параметров
- обучали с нуля на 3000 GPU NVIDIA H200
- есть base и instruction-tuned версии
- лицензия Apache 2.0 (можно использовать в коммерческих продуктах)
- понимает текст и изображения
- сильная поддержка многоязычных диалогов, особенно не на английском и китайском
- в рейтинге LMArena — #2 среди open-source моделей без спец-режимов рассуждения и #6 среди всех OSS-моделей
- версия с упором на рассуждение обещана позже
-
Ministral 3 — компактные модели для edge и локального запуска:
- три размера: 3B, 8B и 14B параметров
- для каждого размера есть base, instruct и reasoning-варианты
- все варианты умеют понимать изображения
- все под Apache 2.0
- упор на соотношение цена/качество: instruct-модели дают сопоставимое качество при в разы меньшем числе сгенерированных токенов
- reasoning‑версии могут «думать дольше» и, например, Ministral 14B reasoning набирает 85% на AIME’25 в своём весовом классе
-
Оптимизация под железо и инфраструктуру:
- Mistral Large 3 доступна в формате NVFP4, сжатом через llm-compressor
- модель можно эффективно гонять на Blackwell NVL72, а также на одном узле с 8×A100 или 8×H100 через vLLM
- вся линейка Mistral 3 обучалась на NVIDIA Hopper с памятью HBM3e
- есть поддержка TensorRT-LLM и SGLang для низкой точности и быстрых инференсов
-
Где уже можно попробовать:
- Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face (Large 3 и Ministral), Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
- скоро появится в NVIDIA NIM и AWS SageMaker
Как это работает
Mistral Large 3
Large 3 использует архитектуру mixture-of-experts. Внутри — много «экспертных» подсетей, но на каждый токен активны только 41 млрд параметров из 675 млрд. Это даёт два эффекта:
- качество как у очень большой модели
- вычислительная нагрузка ближе к средней модели, потому что не все эксперты считаются одновременно
Mistral обучила Large 3 с нуля на 3000 GPU H200, а потом дообучила под инструкции. По итогам пост-тренинга модель по общим промптам догоняет лучшие открытые instruction‑модели и при этом умеет работать с изображениями и многоязычными диалогами.
NVIDIA помогла оптимизировать архитектуру под реальное железо:
- добавили Blackwell attention и MoE‑ядра для sparse‑архитектуры
- реализовали раздельную подачу контекста (prefill) и генерации (decode) для более плотного сервинга
- вместе с Mistral настроили speculative decoding для длинных контекстов и больших объёмов запросов на GB200 NVL72 и дальше
Ministral 3
Ministral 3 — это плотные (dense) модели на 3B, 8B и 14B параметров. Их можно запускать локально или на краю сети:
- на RTX‑ПК и ноутбуках
- на Jetson
- на системах вроде DGX Spark
Каждый размер выпускается в трёх версиях:
- base — для дообучения и кастомных пайплайнов
- instruct — для обычных диалогов и задач ассистента
- reasoning — с более длинным «размышлением» и повышенной точностью на задачах вроде AIME’25
Все варианты — мультимодальные (понимают картинки) и многоязычные.
Что это значит для вас
Когда выбирать Mistral Large 3
Используйте Large 3, если вам нужно:
- близкое к топовым закрытым моделям качество, но с открытыми весами и лицензией Apache 2.0
- серьёзная многоязычная поддержка (русский, европейские языки и т.п.)
- развертывание в своём контуре: on‑prem, частное облако, строгий контроль над данными
- интеграция с инфраструктурой на NVIDIA H100/H200/Blackwell и фреймворками vLLM, TensorRT-LLM, SGLang
Не лучший выбор, если:
- у вас нет доступа к мощному GPU‑кластерам или дорогому облаку
- вам важна максимальная точность на сложных задачах рассуждения прямо сейчас — версия Large 3 с упором на reasoning ещё не вышла
Когда выбирать Ministral 3
Ministral 3 подойдут, если вы:
- хотите локальный ИИ на ноутбуке, рабочей станции или edge‑устройстве
- делаете он‑девайс ассистента, чатбот в корпоративной сети, бота в IDE или голосового помощника
- считаете бюджет: instruct‑версии часто выдают тот же результат, но генерируют в разы меньше токенов, что экономит деньги в облаке и ускоряет отклик
- решаете задачи, где важнее точность, чем скорость — тогда берите reasoning‑варианты, особенно 14B reasoning для сложной математики и логики
Не лучший вариант, если вам нужен:
- максимум возможного качества без компромиссов — тогда лучше смотреть на самые крупные закрытые модели уровня GPT‑4.1/4.1‑mini + RAG
- строгое соблюдение российских регуляций при использовании зарубежных облаков: придётся поднимать модели on‑prem и самим разбираться с юридикой
Доступность из России
Официально Mistral 3 доступна через Mistral AI Studio, Amazon Bedrock, Azure Foundry и другие западные сервисы. Для прямого доступа из России почти наверняка понадобится VPN и аккаунты в соответствующих облаках. Альтернатива — скачивать веса с Hugging Face и запускать локально на своём железе.
Место на рынке
По открытым данным Mistral Large 3 сейчас:
- #2 среди open-source моделей без спец-режима reasoning в LMArena
- #6 среди всех открытых моделей в том же рейтинге
Это ставит Large 3 в одну лигу с сильнейшими открытыми моделями уровня Llama‑класса последнего поколения. По качеству на обычных промптах Large 3 догоняет лучшие открытые instruction‑модели, при этом даёт:
- mixture-of-experts архитектуру с 41B активных параметров
- оптимизацию под современное железо NVIDIA, включая Blackwell и GB200 NVL72
Ministral 3 в сегменте компактных моделей делает ставку на стоимость токена и итоговый счёт за инференс. Mistral прямо заявляет, что у Ministral 3 лучшее соотношение цена/качество среди OSS‑моделей: instruct‑версии часто решают задачу тем же качеством, но с порядком меньшим числом токенов, а значит дешевле и быстрее.
Прямых цифр сравнения с GPT‑4.1, GPT‑4o или Claude 3.5 Mistral не приводит, поэтому честно сравнить скорость и качество «лоб в лоб» нельзя. Но по позициям в LMArena ясно: Large 3 сейчас входит в короткий список самых сильных открытых моделей. Ministral 3 закрывает нишу «запускаем ИИ на своём железе без юристов и лицензий на полстраницы».