MiniMax M3: открытая LLM с контекстом в миллион токенов и фокусом на коде и агентах — VogueTech

Что нового

MiniMax представила MiniMax M3 — открытую модель с акцентом на программирование, агентные сценарии и мультимодальность.

Ключевые факты:

Открытые веса: M3 — сейчас единственная открытая модель, которая одновременно даёт:
- фронтирный уровень в коде и агентах,
- контекст до 1 000 000 токенов,
- нативную мультимодальность (текст + изображения + видео + управление десктопом).
Контекст 1M токенов:
- контекстное окно до 1 000 000 токенов;
- вычисления на токен при таком контексте — всего 1/20 от предыдущего поколения MiniMax;
- ускорение:
  - префилл (заполнение контекста) — в 9+ раз быстрее,
  - декодирование — в 15+ раз быстрее.
Новый тип внимания MSA (MiniMax Sparse Attention):
- разреженное внимание вместо полного квадратичного;
- более точное разбиение KV-блоков;
- более чем в 4 раза быстрее, чем открытый Flash-Sparse-Attention и flash-moba на конфигурации голов M3.
Бенчмарки по коду и агентам:
- SWE-Bench Pro: 59,0% — выше GPT-5.5 и Gemini 3.1 Pro, близко к Opus 4.7;
- Terminal-Bench 2.1: 66,0%;
- SWE-fficiency: 34,8%;
- KernelBench Hard: 28,8%;
- MCP Atlas: 74,2%.
Генерация SVG:
- по бенчмарку SVG-Bench M3 обгоняет Opus 4.7 по качеству генерации SVG-графики.
Мультимодальные бенчмарки:
- OmniDocBench (текст + документы + визуальные данные): результат выше Gemini 3.1 Pro;
- Claw-Eval (end-to-end оценка автономных агентов): M3 показывает лучший результат среди участников теста.
Где можно попробовать:
- веб‑продукт MiniMax Code;
- Token Plan (план по токенам для доступа к API);
- прямой доступ через API MiniMax.

Как это работает

MSA: разреженное внимание вместо квадрата по контексту

Ключевая инженерная идея MiniMax M3 — архитектура внимания MSA (MiniMax Sparse Attention).

Что делает MSA:

уходит от полного внимания с квадратичной сложностью по длине контекста;
использует разреженное внимание с предварительной фильтрацией;
делит KV-память на блоки и выбирает только те, которые действительно нужны текущим запросам.

По сравнению с подходами вроде DSA и MoBA:

MSA точнее делит KV на блоки, поэтому покрывает больше полезного контекста;
уменьшает количество «пустых» обращений к памяти.

«KV outer gather Q»: оптимизация на уровне операторов

MiniMax не ограничилась архитектурой и оптимизировала сами вычислительные операторы.

Подход называется «KV outer gather Q»:

внешний цикл строится по KV-блокам;
модель собирает все запросы (Q), которые обращаются к конкретному KV-блоку;
каждый блок KV читается один раз, чтение идёт по непрерывной памяти;
это увеличивает арифметическую плотность операций и снижает накладные расходы на память.

Результат:

более чем 4× ускорение по сравнению с открытыми реализациями Flash-Sparse-Attention и flash-moba на конфигурации голов M3;
при контексте 1M токенов вычисления на один токен — в 20 раз дешевле, чем у предыдущего поколения модели MiniMax;
в реальных замерах:
- префилл — в 9+ раз быстрее;
- декодирование — в 15+ раз быстрее.

При этом MiniMax провела серию абляций: по большинству задач MSA даёт качество, сопоставимое с полным вниманием, но без квадратичного роста вычислений.

Фокус на коде и агентах: интерактивный тренажёр

MiniMax M3 тренировали с явным прицелом на код и агентные сценарии.

Проблема классического обучения:

большинство датасетов и бенчмарков по коду предполагают одиночные запросы;
в реальной разработке всё иначе: много раундов, уточнения, смена задач, итерации по результатам.

MiniMax построила интерактивный фреймворк-симулятор пользователей:

симулятор воспроизводит поведение реальных разработчиков в диалоге с моделью;
во время тренировки и оценки M3 сталкивается с ситуациями, близкими к продакшену.

Симулятор умеет:

уточнять требования;
обсуждать возможные решения;
давать фидбек и просить исправления;
переключаться между задачами в рамках одной сессии;
вести длинные итерации над сложными проектами.

В результате M3 обучается не только «выдавать код по запросу», а вести длительное сотрудничество: планировать, дробить задачи, учитывать историю сессии.

Мультимодальность с нулевого шага

MiniMax M3 тренировали как мультимодальную модель с самого первого шага обучения.

Особенности подхода:

модель видит текст, изображения и видео с самого начала;
общая семантическая «геометрия» для разных модальностей формируется естественным образом, а не через последующее «приклеивание» визуального энкодера.

MiniMax отдельно подчёркивает важность интерливинга данных:

в датасете много примеров, где текст и изображения/другие модальности перемешаны в одном документе;
эксперименты показывают, что такая структура данных сильнее влияет на качество мультимодальных ответов, чем считалось раньше.

M3 умеет:

принимать изображения и видео в одном запросе с текстом;
использовать визуальный контекст вместе с длинной текстовой историей (до 1M токенов);
работать как мультимодальный агент, включая управление десктопом.

Что это значит для вас

Когда MiniMax M3 действительно полезна

1. Разработка и сопровождение сложных проектов

M3 хорошо подходит, если вы:

работаете с крупными монорепозиториями или распределёнными системами;
хотите, чтобы модель учитывала огромный контекст: несколько файлов, документацию, тикеты, логи;
строите внутренних или внешних код-агентов, которые работают с терминалом, CI/CD, базами данных.

Практические сценарии:

анализ и рефакторинг больших кодовых баз без агрессивного разрезания на куски;
автоматизация правок по результатам тестов и логов;
написание и поддержка сложных скриптов и инфраструктурного кода;
полуавтоматическое ведение задач: от постановки до pull request.

2. Агентные системы и RPA

Бенчмарки Terminal-Bench 2.1 (66,0%) и MCP Atlas (74,2%) показывают, что M3 уверенно работает в сценариях:

пошаговое выполнение команд в терминале;
планирование и координация нескольких действий;
работа с внешними инструментами через протоколы и API.

Если вы строите:

внутренних помощников для DevOps и SRE;
агентов для сопровождения пользователей или внутренних сотрудников;
системы, которые должны долго вести сессию и помнить контекст,

M3 даёт редкое сочетание: длинный контекст, открытые веса и хорошую работу в агентных бенчмарках.

3. Мультимодальные задачи: документы, интерфейсы, SVG

M3 полезна, если нужно объединить текст и картинки/видео в одном потоке работы:

разбор технической документации с графиками, схемами, скриншотами;
генерация и правка SVG-графики (по SVG-Bench M3 обгоняет Opus 4.7);
анализ интерфейсов, скриншотов, видеоинструкций;
мультимодальные агенты, которые читают экран и управляют десктопом.

4. Свои продукты и on-prem решения

Так как у M3 открытые веса, её можно:

разворачивать внутри инфраструктуры компании;
дообучать на своих данных (если MiniMax выложит соответствующие чекпоинты и лицензии);
интегрировать в существующие пайплайны, где доступ к облакам ограничен.

Когда M3 может не подойти

Если вам нужны простые чат‑боты без тяжёлого кода и мультимодальности, достаточно более лёгких моделей: M3 может быть избыточна по ресурсам.
Если критичны официальные сервисы без VPN и локальная правовая поддержка в России, доступ к MiniMax может быть затруднён. MiniMax — китайская компания, её облачные сервисы могут требовать VPN и могут попадать под региональные ограничения.
Если вы жёстко привязаны к экосистеме конкретного вендора (например, используете только GPT‑модели через фирменный API), интеграция M3 потребует доработок.

Место на рынке

MiniMax M3 заявлена как фронтирная открытая модель с упором на код и агентов.

По доступным цифрам:

SWE-Bench Pro (код):
- M3 — 59,0%;
- это выше GPT-5.5 и Gemini 3.1 Pro;
- результат близок к Opus 4.7.
SVG-Bench (SVG‑генерация):
- M3 обгоняет Opus 4.7.
OmniDocBench (мультимодальность):
- M3 показывает результат выше Gemini 3.1 Pro.
Claw-Eval (агенты):
- M3 получает наивысший балл среди моделей, участвовавших в тесте.

С точки зрения архитектуры и открытости:

среди открытых моделей сейчас нет других, которые одновременно дают:
- контекст до 1M токенов;
- нативную мультимодальность с обучением «с нуля»;
- фронтирные результаты по SWE-Bench Pro и агентным бенчмаркам;
- открытые веса.

По скорости и эффективности:

за счёт MSA и «KV outer gather Q» M3 сильно снижает стоимость токена на больших контекстах по сравнению с предыдущей линейкой MiniMax;
по сравнению с популярными разреженными реализациями (Flash-Sparse-Attention, flash-moba) M3 достигает 4× ускорения на своей конфигурации голов.

Информации о конкретной цене токенов в API и сравнении тарифов с GPT‑5, Claude 4 или Gemini 3.1 Pro нет. Можно ориентироваться на то, что MiniMax продвигает Token Plan как способ гибко покупать объём токенов для M3 и других моделей.

Для разработчиков и компаний, которым нужны открытые веса, длинный контекст и сильный код, MiniMax M3 сейчас выглядит одним из самых агрессивных предложений на рынке открытых LLM.

Как попробовать MiniMax M3

MiniMax предлагает три основных способа доступа к M3:

MiniMax Code
- веб‑инструмент для работы с кодом на базе M3;
- подходит, чтобы быстро оценить качество автодополнения, рефакторинга и анализа проектов.
Token Plan
- система покупки токенов для доступа к моделям MiniMax, включая M3;
- формат полезен, если вы хотите контролировать расходы по токенам, а не по запросам.
API MiniMax
- прямой доступ к MiniMax M3 через HTTP‑API;
- подходит для интеграции в IDE, CI/CD, бэкенд‑сервисы и собственных агентов.

Подробные примеры кода и SDK MiniMax традиционно публикует в документации к API. Для развёртывания M3 с открытыми весами внутри своей инфраструктуры нужно следить за официальным репозиторием MiniMax: там обычно появляются чекпоинты, инструкции по запуску и поддерживаемые фреймворки (PyTorch, TensorRT и т.п.).