Mistral 3: большая открытая модель и «карманные» Ministral для локального ИИ — VogueTech

Что появилось / что изменилось

Mistral AI выкатила линейку Mistral 3:

Mistral Large 3 — самая мощная модель компании:
- архитектура sparse mixture-of-experts
- 41 млрд активных параметров, 675 млрд общих параметров
- обучали с нуля на 3000 GPU NVIDIA H200
- есть base и instruction-tuned версии
- лицензия Apache 2.0 (можно использовать в коммерческих продуктах)
- понимает текст и изображения
- сильная поддержка многоязычных диалогов, особенно не на английском и китайском
- в рейтинге LMArena — #2 среди open-source моделей без спец-режимов рассуждения и #6 среди всех OSS-моделей
- версия с упором на рассуждение обещана позже
Ministral 3 — компактные модели для edge и локального запуска:
- три размера: 3B, 8B и 14B параметров
- для каждого размера есть base, instruct и reasoning-варианты
- все варианты умеют понимать изображения
- все под Apache 2.0
- упор на соотношение цена/качество: instruct-модели дают сопоставимое качество при в разы меньшем числе сгенерированных токенов
- reasoning‑версии могут «думать дольше» и, например, Ministral 14B reasoning набирает 85% на AIME’25 в своём весовом классе
Оптимизация под железо и инфраструктуру:
- Mistral Large 3 доступна в формате NVFP4, сжатом через llm-compressor
- модель можно эффективно гонять на Blackwell NVL72, а также на одном узле с 8×A100 или 8×H100 через vLLM
- вся линейка Mistral 3 обучалась на NVIDIA Hopper с памятью HBM3e
- есть поддержка TensorRT-LLM и SGLang для низкой точности и быстрых инференсов
Где уже можно попробовать:
- Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face (Large 3 и Ministral), Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
- скоро появится в NVIDIA NIM и AWS SageMaker

Как это работает

Mistral Large 3

Large 3 использует архитектуру mixture-of-experts. Внутри — много «экспертных» подсетей, но на каждый токен активны только 41 млрд параметров из 675 млрд. Это даёт два эффекта:

качество как у очень большой модели
вычислительная нагрузка ближе к средней модели, потому что не все эксперты считаются одновременно

Mistral обучила Large 3 с нуля на 3000 GPU H200, а потом дообучила под инструкции. По итогам пост-тренинга модель по общим промптам догоняет лучшие открытые instruction‑модели и при этом умеет работать с изображениями и многоязычными диалогами.

NVIDIA помогла оптимизировать архитектуру под реальное железо:

добавили Blackwell attention и MoE‑ядра для sparse‑архитектуры
реализовали раздельную подачу контекста (prefill) и генерации (decode) для более плотного сервинга
вместе с Mistral настроили speculative decoding для длинных контекстов и больших объёмов запросов на GB200 NVL72 и дальше

Ministral 3

Ministral 3 — это плотные (dense) модели на 3B, 8B и 14B параметров. Их можно запускать локально или на краю сети:

на RTX‑ПК и ноутбуках
на Jetson
на системах вроде DGX Spark

Каждый размер выпускается в трёх версиях:

base — для дообучения и кастомных пайплайнов
instruct — для обычных диалогов и задач ассистента
reasoning — с более длинным «размышлением» и повышенной точностью на задачах вроде AIME’25

Все варианты — мультимодальные (понимают картинки) и многоязычные.

Что это значит для вас

Когда выбирать Mistral Large 3

Используйте Large 3, если вам нужно:

близкое к топовым закрытым моделям качество, но с открытыми весами и лицензией Apache 2.0
серьёзная многоязычная поддержка (русский, европейские языки и т.п.)
развертывание в своём контуре: on‑prem, частное облако, строгий контроль над данными
интеграция с инфраструктурой на NVIDIA H100/H200/Blackwell и фреймворками vLLM, TensorRT-LLM, SGLang

Не лучший выбор, если:

у вас нет доступа к мощному GPU‑кластерам или дорогому облаку
вам важна максимальная точность на сложных задачах рассуждения прямо сейчас — версия Large 3 с упором на reasoning ещё не вышла

Когда выбирать Ministral 3

Ministral 3 подойдут, если вы:

хотите локальный ИИ на ноутбуке, рабочей станции или edge‑устройстве
делаете он‑девайс ассистента, чатбот в корпоративной сети, бота в IDE или голосового помощника
считаете бюджет: instruct‑версии часто выдают тот же результат, но генерируют в разы меньше токенов, что экономит деньги в облаке и ускоряет отклик
решаете задачи, где важнее точность, чем скорость — тогда берите reasoning‑варианты, особенно 14B reasoning для сложной математики и логики

Не лучший вариант, если вам нужен:

максимум возможного качества без компромиссов — тогда лучше смотреть на самые крупные закрытые модели уровня GPT‑4.1/4.1‑mini + RAG
строгое соблюдение российских регуляций при использовании зарубежных облаков: придётся поднимать модели on‑prem и самим разбираться с юридикой

Доступность из России

Официально Mistral 3 доступна через Mistral AI Studio, Amazon Bedrock, Azure Foundry и другие западные сервисы. Для прямого доступа из России почти наверняка понадобится VPN и аккаунты в соответствующих облаках. Альтернатива — скачивать веса с Hugging Face и запускать локально на своём железе.

Место на рынке

По открытым данным Mistral Large 3 сейчас:

#2 среди open-source моделей без спец-режима reasoning в LMArena
#6 среди всех открытых моделей в том же рейтинге

Это ставит Large 3 в одну лигу с сильнейшими открытыми моделями уровня Llama‑класса последнего поколения. По качеству на обычных промптах Large 3 догоняет лучшие открытые instruction‑модели, при этом даёт:

mixture-of-experts архитектуру с 41B активных параметров
оптимизацию под современное железо NVIDIA, включая Blackwell и GB200 NVL72

Ministral 3 в сегменте компактных моделей делает ставку на стоимость токена и итоговый счёт за инференс. Mistral прямо заявляет, что у Ministral 3 лучшее соотношение цена/качество среди OSS‑моделей: instruct‑версии часто решают задачу тем же качеством, но с порядком меньшим числом токенов, а значит дешевле и быстрее.

Прямых цифр сравнения с GPT‑4.1, GPT‑4o или Claude 3.5 Mistral не приводит, поэтому честно сравнить скорость и качество «лоб в лоб» нельзя. Но по позициям в LMArena ясно: Large 3 сейчас входит в короткий список самых сильных открытых моделей. Ministral 3 закрывает нишу «запускаем ИИ на своём железе без юристов и лицензий на полстраницы».