- Дата публикации
MiniMax M3: открытая LLM с контекстом в миллион токенов и фокусом на коде и агентах
Что нового
MiniMax представила MiniMax M3 — открытую модель с акцентом на программирование, агентные сценарии и мультимодальность.
Ключевые факты:
- Открытые веса: M3 — сейчас единственная открытая модель, которая одновременно даёт:
- фронтирный уровень в коде и агентах,
- контекст до 1 000 000 токенов,
- нативную мультимодальность (текст + изображения + видео + управление десктопом).
- Контекст 1M токенов:
- контекстное окно до 1 000 000 токенов;
- вычисления на токен при таком контексте — всего 1/20 от предыдущего поколения MiniMax;
- ускорение:
- префилл (заполнение контекста) — в 9+ раз быстрее,
- декодирование — в 15+ раз быстрее.
- Новый тип внимания MSA (MiniMax Sparse Attention):
- разреженное внимание вместо полного квадратичного;
- более точное разбиение KV-блоков;
- более чем в 4 раза быстрее, чем открытый Flash-Sparse-Attention и flash-moba на конфигурации голов M3.
- Бенчмарки по коду и агентам:
- SWE-Bench Pro: 59,0% — выше GPT-5.5 и Gemini 3.1 Pro, близко к Opus 4.7;
- Terminal-Bench 2.1: 66,0%;
- SWE-fficiency: 34,8%;
- KernelBench Hard: 28,8%;
- MCP Atlas: 74,2%.
- Генерация SVG:
- по бенчмарку SVG-Bench M3 обгоняет Opus 4.7 по качеству генерации SVG-графики.
- Мультимодальные бенчмарки:
- OmniDocBench (текст + документы + визуальные данные): результат выше Gemini 3.1 Pro;
- Claw-Eval (end-to-end оценка автономных агентов): M3 показывает лучший результат среди участников теста.
- Где можно попробовать:
- веб‑продукт MiniMax Code;
- Token Plan (план по токенам для доступа к API);
- прямой доступ через API MiniMax.
Как это работает
MSA: разреженное внимание вместо квадрата по контексту
Ключевая инженерная идея MiniMax M3 — архитектура внимания MSA (MiniMax Sparse Attention).
Что делает MSA:
- уходит от полного внимания с квадратичной сложностью по длине контекста;
- использует разреженное внимание с предварительной фильтрацией;
- делит KV-память на блоки и выбирает только те, которые действительно нужны текущим запросам.
По сравнению с подходами вроде DSA и MoBA:
- MSA точнее делит KV на блоки, поэтому покрывает больше полезного контекста;
- уменьшает количество «пустых» обращений к памяти.
«KV outer gather Q»: оптимизация на уровне операторов
MiniMax не ограничилась архитектурой и оптимизировала сами вычислительные операторы.
Подход называется «KV outer gather Q»:
- внешний цикл строится по KV-блокам;
- модель собирает все запросы (Q), которые обращаются к конкретному KV-блоку;
- каждый блок KV читается один раз, чтение идёт по непрерывной памяти;
- это увеличивает арифметическую плотность операций и снижает накладные расходы на память.
Результат:
- более чем 4× ускорение по сравнению с открытыми реализациями Flash-Sparse-Attention и flash-moba на конфигурации голов M3;
- при контексте 1M токенов вычисления на один токен — в 20 раз дешевле, чем у предыдущего поколения модели MiniMax;
- в реальных замерах:
- префилл — в 9+ раз быстрее;
- декодирование — в 15+ раз быстрее.
При этом MiniMax провела серию абляций: по большинству задач MSA даёт качество, сопоставимое с полным вниманием, но без квадратичного роста вычислений.
Фокус на коде и агентах: интерактивный тренажёр
MiniMax M3 тренировали с явным прицелом на код и агентные сценарии.
Проблема классического обучения:
- большинство датасетов и бенчмарков по коду предполагают одиночные запросы;
- в реальной разработке всё иначе: много раундов, уточнения, смена задач, итерации по результатам.
MiniMax построила интерактивный фреймворк-симулятор пользователей:
- симулятор воспроизводит поведение реальных разработчиков в диалоге с моделью;
- во время тренировки и оценки M3 сталкивается с ситуациями, близкими к продакшену.
Симулятор умеет:
- уточнять требования;
- обсуждать возможные решения;
- давать фидбек и просить исправления;
- переключаться между задачами в рамках одной сессии;
- вести длинные итерации над сложными проектами.
В результате M3 обучается не только «выдавать код по запросу», а вести длительное сотрудничество: планировать, дробить задачи, учитывать историю сессии.
Мультимодальность с нулевого шага
MiniMax M3 тренировали как мультимодальную модель с самого первого шага обучения.
Особенности подхода:
- модель видит текст, изображения и видео с самого начала;
- общая семантическая «геометрия» для разных модальностей формируется естественным образом, а не через последующее «приклеивание» визуального энкодера.
MiniMax отдельно подчёркивает важность интерливинга данных:
- в датасете много примеров, где текст и изображения/другие модальности перемешаны в одном документе;
- эксперименты показывают, что такая структура данных сильнее влияет на качество мультимодальных ответов, чем считалось раньше.
M3 умеет:
- принимать изображения и видео в одном запросе с текстом;
- использовать визуальный контекст вместе с длинной текстовой историей (до 1M токенов);
- работать как мультимодальный агент, включая управление десктопом.
Что это значит для вас
Когда MiniMax M3 действительно полезна
1. Разработка и сопровождение сложных проектов
M3 хорошо подходит, если вы:
- работаете с крупными монорепозиториями или распределёнными системами;
- хотите, чтобы модель учитывала огромный контекст: несколько файлов, документацию, тикеты, логи;
- строите внутренних или внешних код-агентов, которые работают с терминалом, CI/CD, базами данных.
Практические сценарии:
- анализ и рефакторинг больших кодовых баз без агрессивного разрезания на куски;
- автоматизация правок по результатам тестов и логов;
- написание и поддержка сложных скриптов и инфраструктурного кода;
- полуавтоматическое ведение задач: от постановки до pull request.
2. Агентные системы и RPA
Бенчмарки Terminal-Bench 2.1 (66,0%) и MCP Atlas (74,2%) показывают, что M3 уверенно работает в сценариях:
- пошаговое выполнение команд в терминале;
- планирование и координация нескольких действий;
- работа с внешними инструментами через протоколы и API.
Если вы строите:
- внутренних помощников для DevOps и SRE;
- агентов для сопровождения пользователей или внутренних сотрудников;
- системы, которые должны долго вести сессию и помнить контекст,
M3 даёт редкое сочетание: длинный контекст, открытые веса и хорошую работу в агентных бенчмарках.
3. Мультимодальные задачи: документы, интерфейсы, SVG
M3 полезна, если нужно объединить текст и картинки/видео в одном потоке работы:
- разбор технической документации с графиками, схемами, скриншотами;
- генерация и правка SVG-графики (по SVG-Bench M3 обгоняет Opus 4.7);
- анализ интерфейсов, скриншотов, видеоинструкций;
- мультимодальные агенты, которые читают экран и управляют десктопом.
4. Свои продукты и on-prem решения
Так как у M3 открытые веса, её можно:
- разворачивать внутри инфраструктуры компании;
- дообучать на своих данных (если MiniMax выложит соответствующие чекпоинты и лицензии);
- интегрировать в существующие пайплайны, где доступ к облакам ограничен.
Когда M3 может не подойти
- Если вам нужны простые чат‑боты без тяжёлого кода и мультимодальности, достаточно более лёгких моделей: M3 может быть избыточна по ресурсам.
- Если критичны официальные сервисы без VPN и локальная правовая поддержка в России, доступ к MiniMax может быть затруднён. MiniMax — китайская компания, её облачные сервисы могут требовать VPN и могут попадать под региональные ограничения.
- Если вы жёстко привязаны к экосистеме конкретного вендора (например, используете только GPT‑модели через фирменный API), интеграция M3 потребует доработок.
Место на рынке
MiniMax M3 заявлена как фронтирная открытая модель с упором на код и агентов.
По доступным цифрам:
- SWE-Bench Pro (код):
- M3 — 59,0%;
- это выше GPT-5.5 и Gemini 3.1 Pro;
- результат близок к Opus 4.7.
- SVG-Bench (SVG‑генерация):
- M3 обгоняет Opus 4.7.
- OmniDocBench (мультимодальность):
- M3 показывает результат выше Gemini 3.1 Pro.
- Claw-Eval (агенты):
- M3 получает наивысший балл среди моделей, участвовавших в тесте.
С точки зрения архитектуры и открытости:
- среди открытых моделей сейчас нет других, которые одновременно дают:
- контекст до 1M токенов;
- нативную мультимодальность с обучением «с нуля»;
- фронтирные результаты по SWE-Bench Pro и агентным бенчмаркам;
- открытые веса.
По скорости и эффективности:
- за счёт MSA и «KV outer gather Q» M3 сильно снижает стоимость токена на больших контекстах по сравнению с предыдущей линейкой MiniMax;
- по сравнению с популярными разреженными реализациями (Flash-Sparse-Attention, flash-moba) M3 достигает 4× ускорения на своей конфигурации голов.
Информации о конкретной цене токенов в API и сравнении тарифов с GPT‑5, Claude 4 или Gemini 3.1 Pro нет. Можно ориентироваться на то, что MiniMax продвигает Token Plan как способ гибко покупать объём токенов для M3 и других моделей.
Для разработчиков и компаний, которым нужны открытые веса, длинный контекст и сильный код, MiniMax M3 сейчас выглядит одним из самых агрессивных предложений на рынке открытых LLM.
Как попробовать MiniMax M3
MiniMax предлагает три основных способа доступа к M3:
-
MiniMax Code
- веб‑инструмент для работы с кодом на базе M3;
- подходит, чтобы быстро оценить качество автодополнения, рефакторинга и анализа проектов.
-
Token Plan
- система покупки токенов для доступа к моделям MiniMax, включая M3;
- формат полезен, если вы хотите контролировать расходы по токенам, а не по запросам.
-
API MiniMax
- прямой доступ к MiniMax M3 через HTTP‑API;
- подходит для интеграции в IDE, CI/CD, бэкенд‑сервисы и собственных агентов.
Подробные примеры кода и SDK MiniMax традиционно публикует в документации к API. Для развёртывания M3 с открытыми весами внутри своей инфраструктуры нужно следить за официальным репозиторием MiniMax: там обычно появляются чекпоинты, инструкции по запуску и поддерживаемые фреймворки (PyTorch, TensorRT и т.п.).