Дата публикации
ai_products

Mistral 3: большая открытая модель и «карманные» Ministral для локального ИИ

Что появилось / что изменилось

Mistral AI выкатила линейку Mistral 3:

  • Mistral Large 3 — самая мощная модель компании:

    • архитектура sparse mixture-of-experts
    • 41 млрд активных параметров, 675 млрд общих параметров
    • обучали с нуля на 3000 GPU NVIDIA H200
    • есть base и instruction-tuned версии
    • лицензия Apache 2.0 (можно использовать в коммерческих продуктах)
    • понимает текст и изображения
    • сильная поддержка многоязычных диалогов, особенно не на английском и китайском
    • в рейтинге LMArena#2 среди open-source моделей без спец-режимов рассуждения и #6 среди всех OSS-моделей
    • версия с упором на рассуждение обещана позже
  • Ministral 3 — компактные модели для edge и локального запуска:

    • три размера: 3B, 8B и 14B параметров
    • для каждого размера есть base, instruct и reasoning-варианты
    • все варианты умеют понимать изображения
    • все под Apache 2.0
    • упор на соотношение цена/качество: instruct-модели дают сопоставимое качество при в разы меньшем числе сгенерированных токенов
    • reasoning‑версии могут «думать дольше» и, например, Ministral 14B reasoning набирает 85% на AIME’25 в своём весовом классе
  • Оптимизация под железо и инфраструктуру:

    • Mistral Large 3 доступна в формате NVFP4, сжатом через llm-compressor
    • модель можно эффективно гонять на Blackwell NVL72, а также на одном узле с 8×A100 или 8×H100 через vLLM
    • вся линейка Mistral 3 обучалась на NVIDIA Hopper с памятью HBM3e
    • есть поддержка TensorRT-LLM и SGLang для низкой точности и быстрых инференсов
  • Где уже можно попробовать:

    • Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face (Large 3 и Ministral), Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
    • скоро появится в NVIDIA NIM и AWS SageMaker

Как это работает

Mistral Large 3

Large 3 использует архитектуру mixture-of-experts. Внутри — много «экспертных» подсетей, но на каждый токен активны только 41 млрд параметров из 675 млрд. Это даёт два эффекта:

  • качество как у очень большой модели
  • вычислительная нагрузка ближе к средней модели, потому что не все эксперты считаются одновременно

Mistral обучила Large 3 с нуля на 3000 GPU H200, а потом дообучила под инструкции. По итогам пост-тренинга модель по общим промптам догоняет лучшие открытые instruction‑модели и при этом умеет работать с изображениями и многоязычными диалогами.

NVIDIA помогла оптимизировать архитектуру под реальное железо:

  • добавили Blackwell attention и MoE‑ядра для sparse‑архитектуры
  • реализовали раздельную подачу контекста (prefill) и генерации (decode) для более плотного сервинга
  • вместе с Mistral настроили speculative decoding для длинных контекстов и больших объёмов запросов на GB200 NVL72 и дальше

Ministral 3

Ministral 3 — это плотные (dense) модели на 3B, 8B и 14B параметров. Их можно запускать локально или на краю сети:

  • на RTX‑ПК и ноутбуках
  • на Jetson
  • на системах вроде DGX Spark

Каждый размер выпускается в трёх версиях:

  • base — для дообучения и кастомных пайплайнов
  • instruct — для обычных диалогов и задач ассистента
  • reasoning — с более длинным «размышлением» и повышенной точностью на задачах вроде AIME’25

Все варианты — мультимодальные (понимают картинки) и многоязычные.

Что это значит для вас

Когда выбирать Mistral Large 3

Используйте Large 3, если вам нужно:

  • близкое к топовым закрытым моделям качество, но с открытыми весами и лицензией Apache 2.0
  • серьёзная многоязычная поддержка (русский, европейские языки и т.п.)
  • развертывание в своём контуре: on‑prem, частное облако, строгий контроль над данными
  • интеграция с инфраструктурой на NVIDIA H100/H200/Blackwell и фреймворками vLLM, TensorRT-LLM, SGLang

Не лучший выбор, если:

  • у вас нет доступа к мощному GPU‑кластерам или дорогому облаку
  • вам важна максимальная точность на сложных задачах рассуждения прямо сейчас — версия Large 3 с упором на reasoning ещё не вышла

Когда выбирать Ministral 3

Ministral 3 подойдут, если вы:

  • хотите локальный ИИ на ноутбуке, рабочей станции или edge‑устройстве
  • делаете он‑девайс ассистента, чатбот в корпоративной сети, бота в IDE или голосового помощника
  • считаете бюджет: instruct‑версии часто выдают тот же результат, но генерируют в разы меньше токенов, что экономит деньги в облаке и ускоряет отклик
  • решаете задачи, где важнее точность, чем скорость — тогда берите reasoning‑варианты, особенно 14B reasoning для сложной математики и логики

Не лучший вариант, если вам нужен:

  • максимум возможного качества без компромиссов — тогда лучше смотреть на самые крупные закрытые модели уровня GPT‑4.1/4.1‑mini + RAG
  • строгое соблюдение российских регуляций при использовании зарубежных облаков: придётся поднимать модели on‑prem и самим разбираться с юридикой

Доступность из России

Официально Mistral 3 доступна через Mistral AI Studio, Amazon Bedrock, Azure Foundry и другие западные сервисы. Для прямого доступа из России почти наверняка понадобится VPN и аккаунты в соответствующих облаках. Альтернатива — скачивать веса с Hugging Face и запускать локально на своём железе.

Место на рынке

По открытым данным Mistral Large 3 сейчас:

  • #2 среди open-source моделей без спец-режима reasoning в LMArena
  • #6 среди всех открытых моделей в том же рейтинге

Это ставит Large 3 в одну лигу с сильнейшими открытыми моделями уровня Llama‑класса последнего поколения. По качеству на обычных промптах Large 3 догоняет лучшие открытые instruction‑модели, при этом даёт:

  • mixture-of-experts архитектуру с 41B активных параметров
  • оптимизацию под современное железо NVIDIA, включая Blackwell и GB200 NVL72

Ministral 3 в сегменте компактных моделей делает ставку на стоимость токена и итоговый счёт за инференс. Mistral прямо заявляет, что у Ministral 3 лучшее соотношение цена/качество среди OSS‑моделей: instruct‑версии часто решают задачу тем же качеством, но с порядком меньшим числом токенов, а значит дешевле и быстрее.

Прямых цифр сравнения с GPT‑4.1, GPT‑4o или Claude 3.5 Mistral не приводит, поэтому честно сравнить скорость и качество «лоб в лоб» нельзя. Но по позициям в LMArena ясно: Large 3 сейчас входит в короткий список самых сильных открытых моделей. Ministral 3 закрывает нишу «запускаем ИИ на своём железе без юристов и лицензий на полстраницы».

🔗 Источник: https://mistral.ai/news/mistral-3
Mistral 3: большая открытая модель и «карманные» Ministral для локального ИИ — VogueTech | VogueTech