Дата публикации
ai_products

MiniMax M3: открытая LLM с контекстом в миллион токенов и фокусом на коде и агентах

Что нового

MiniMax представила MiniMax M3 — открытую модель с акцентом на программирование, агентные сценарии и мультимодальность.

Ключевые факты:

  • Открытые веса: M3 — сейчас единственная открытая модель, которая одновременно даёт:
    • фронтирный уровень в коде и агентах,
    • контекст до 1 000 000 токенов,
    • нативную мультимодальность (текст + изображения + видео + управление десктопом).
  • Контекст 1M токенов:
    • контекстное окно до 1 000 000 токенов;
    • вычисления на токен при таком контексте — всего 1/20 от предыдущего поколения MiniMax;
    • ускорение:
      • префилл (заполнение контекста) — в 9+ раз быстрее,
      • декодирование — в 15+ раз быстрее.
  • Новый тип внимания MSA (MiniMax Sparse Attention):
    • разреженное внимание вместо полного квадратичного;
    • более точное разбиение KV-блоков;
    • более чем в 4 раза быстрее, чем открытый Flash-Sparse-Attention и flash-moba на конфигурации голов M3.
  • Бенчмарки по коду и агентам:
    • SWE-Bench Pro: 59,0% — выше GPT-5.5 и Gemini 3.1 Pro, близко к Opus 4.7;
    • Terminal-Bench 2.1: 66,0%;
    • SWE-fficiency: 34,8%;
    • KernelBench Hard: 28,8%;
    • MCP Atlas: 74,2%.
  • Генерация SVG:
    • по бенчмарку SVG-Bench M3 обгоняет Opus 4.7 по качеству генерации SVG-графики.
  • Мультимодальные бенчмарки:
    • OmniDocBench (текст + документы + визуальные данные): результат выше Gemini 3.1 Pro;
    • Claw-Eval (end-to-end оценка автономных агентов): M3 показывает лучший результат среди участников теста.
  • Где можно попробовать:
    • веб‑продукт MiniMax Code;
    • Token Plan (план по токенам для доступа к API);
    • прямой доступ через API MiniMax.

Как это работает

MSA: разреженное внимание вместо квадрата по контексту

Ключевая инженерная идея MiniMax M3 — архитектура внимания MSA (MiniMax Sparse Attention).

Что делает MSA:

  • уходит от полного внимания с квадратичной сложностью по длине контекста;
  • использует разреженное внимание с предварительной фильтрацией;
  • делит KV-память на блоки и выбирает только те, которые действительно нужны текущим запросам.

По сравнению с подходами вроде DSA и MoBA:

  • MSA точнее делит KV на блоки, поэтому покрывает больше полезного контекста;
  • уменьшает количество «пустых» обращений к памяти.

«KV outer gather Q»: оптимизация на уровне операторов

MiniMax не ограничилась архитектурой и оптимизировала сами вычислительные операторы.

Подход называется «KV outer gather Q»:

  • внешний цикл строится по KV-блокам;
  • модель собирает все запросы (Q), которые обращаются к конкретному KV-блоку;
  • каждый блок KV читается один раз, чтение идёт по непрерывной памяти;
  • это увеличивает арифметическую плотность операций и снижает накладные расходы на память.

Результат:

  • более чем 4× ускорение по сравнению с открытыми реализациями Flash-Sparse-Attention и flash-moba на конфигурации голов M3;
  • при контексте 1M токенов вычисления на один токен — в 20 раз дешевле, чем у предыдущего поколения модели MiniMax;
  • в реальных замерах:
    • префилл — в 9+ раз быстрее;
    • декодирование — в 15+ раз быстрее.

При этом MiniMax провела серию абляций: по большинству задач MSA даёт качество, сопоставимое с полным вниманием, но без квадратичного роста вычислений.

Фокус на коде и агентах: интерактивный тренажёр

MiniMax M3 тренировали с явным прицелом на код и агентные сценарии.

Проблема классического обучения:

  • большинство датасетов и бенчмарков по коду предполагают одиночные запросы;
  • в реальной разработке всё иначе: много раундов, уточнения, смена задач, итерации по результатам.

MiniMax построила интерактивный фреймворк-симулятор пользователей:

  • симулятор воспроизводит поведение реальных разработчиков в диалоге с моделью;
  • во время тренировки и оценки M3 сталкивается с ситуациями, близкими к продакшену.

Симулятор умеет:

  • уточнять требования;
  • обсуждать возможные решения;
  • давать фидбек и просить исправления;
  • переключаться между задачами в рамках одной сессии;
  • вести длинные итерации над сложными проектами.

В результате M3 обучается не только «выдавать код по запросу», а вести длительное сотрудничество: планировать, дробить задачи, учитывать историю сессии.

Мультимодальность с нулевого шага

MiniMax M3 тренировали как мультимодальную модель с самого первого шага обучения.

Особенности подхода:

  • модель видит текст, изображения и видео с самого начала;
  • общая семантическая «геометрия» для разных модальностей формируется естественным образом, а не через последующее «приклеивание» визуального энкодера.

MiniMax отдельно подчёркивает важность интерливинга данных:

  • в датасете много примеров, где текст и изображения/другие модальности перемешаны в одном документе;
  • эксперименты показывают, что такая структура данных сильнее влияет на качество мультимодальных ответов, чем считалось раньше.

M3 умеет:

  • принимать изображения и видео в одном запросе с текстом;
  • использовать визуальный контекст вместе с длинной текстовой историей (до 1M токенов);
  • работать как мультимодальный агент, включая управление десктопом.

Что это значит для вас

Когда MiniMax M3 действительно полезна

1. Разработка и сопровождение сложных проектов

M3 хорошо подходит, если вы:

  • работаете с крупными монорепозиториями или распределёнными системами;
  • хотите, чтобы модель учитывала огромный контекст: несколько файлов, документацию, тикеты, логи;
  • строите внутренних или внешних код-агентов, которые работают с терминалом, CI/CD, базами данных.

Практические сценарии:

  • анализ и рефакторинг больших кодовых баз без агрессивного разрезания на куски;
  • автоматизация правок по результатам тестов и логов;
  • написание и поддержка сложных скриптов и инфраструктурного кода;
  • полуавтоматическое ведение задач: от постановки до pull request.

2. Агентные системы и RPA

Бенчмарки Terminal-Bench 2.1 (66,0%) и MCP Atlas (74,2%) показывают, что M3 уверенно работает в сценариях:

  • пошаговое выполнение команд в терминале;
  • планирование и координация нескольких действий;
  • работа с внешними инструментами через протоколы и API.

Если вы строите:

  • внутренних помощников для DevOps и SRE;
  • агентов для сопровождения пользователей или внутренних сотрудников;
  • системы, которые должны долго вести сессию и помнить контекст,

M3 даёт редкое сочетание: длинный контекст, открытые веса и хорошую работу в агентных бенчмарках.

3. Мультимодальные задачи: документы, интерфейсы, SVG

M3 полезна, если нужно объединить текст и картинки/видео в одном потоке работы:

  • разбор технической документации с графиками, схемами, скриншотами;
  • генерация и правка SVG-графики (по SVG-Bench M3 обгоняет Opus 4.7);
  • анализ интерфейсов, скриншотов, видеоинструкций;
  • мультимодальные агенты, которые читают экран и управляют десктопом.

4. Свои продукты и on-prem решения

Так как у M3 открытые веса, её можно:

  • разворачивать внутри инфраструктуры компании;
  • дообучать на своих данных (если MiniMax выложит соответствующие чекпоинты и лицензии);
  • интегрировать в существующие пайплайны, где доступ к облакам ограничен.

Когда M3 может не подойти

  • Если вам нужны простые чат‑боты без тяжёлого кода и мультимодальности, достаточно более лёгких моделей: M3 может быть избыточна по ресурсам.
  • Если критичны официальные сервисы без VPN и локальная правовая поддержка в России, доступ к MiniMax может быть затруднён. MiniMax — китайская компания, её облачные сервисы могут требовать VPN и могут попадать под региональные ограничения.
  • Если вы жёстко привязаны к экосистеме конкретного вендора (например, используете только GPT‑модели через фирменный API), интеграция M3 потребует доработок.

Место на рынке

MiniMax M3 заявлена как фронтирная открытая модель с упором на код и агентов.

По доступным цифрам:

  • SWE-Bench Pro (код):
    • M3 — 59,0%;
    • это выше GPT-5.5 и Gemini 3.1 Pro;
    • результат близок к Opus 4.7.
  • SVG-Bench (SVG‑генерация):
    • M3 обгоняет Opus 4.7.
  • OmniDocBench (мультимодальность):
    • M3 показывает результат выше Gemini 3.1 Pro.
  • Claw-Eval (агенты):
    • M3 получает наивысший балл среди моделей, участвовавших в тесте.

С точки зрения архитектуры и открытости:

  • среди открытых моделей сейчас нет других, которые одновременно дают:
    • контекст до 1M токенов;
    • нативную мультимодальность с обучением «с нуля»;
    • фронтирные результаты по SWE-Bench Pro и агентным бенчмаркам;
    • открытые веса.

По скорости и эффективности:

  • за счёт MSA и «KV outer gather Q» M3 сильно снижает стоимость токена на больших контекстах по сравнению с предыдущей линейкой MiniMax;
  • по сравнению с популярными разреженными реализациями (Flash-Sparse-Attention, flash-moba) M3 достигает 4× ускорения на своей конфигурации голов.

Информации о конкретной цене токенов в API и сравнении тарифов с GPT‑5, Claude 4 или Gemini 3.1 Pro нет. Можно ориентироваться на то, что MiniMax продвигает Token Plan как способ гибко покупать объём токенов для M3 и других моделей.

Для разработчиков и компаний, которым нужны открытые веса, длинный контекст и сильный код, MiniMax M3 сейчас выглядит одним из самых агрессивных предложений на рынке открытых LLM.

Как попробовать MiniMax M3

MiniMax предлагает три основных способа доступа к M3:

  1. MiniMax Code

    • веб‑инструмент для работы с кодом на базе M3;
    • подходит, чтобы быстро оценить качество автодополнения, рефакторинга и анализа проектов.
  2. Token Plan

    • система покупки токенов для доступа к моделям MiniMax, включая M3;
    • формат полезен, если вы хотите контролировать расходы по токенам, а не по запросам.
  3. API MiniMax

    • прямой доступ к MiniMax M3 через HTTP‑API;
    • подходит для интеграции в IDE, CI/CD, бэкенд‑сервисы и собственных агентов.

Подробные примеры кода и SDK MiniMax традиционно публикует в документации к API. Для развёртывания M3 с открытыми весами внутри своей инфраструктуры нужно следить за официальным репозиторием MiniMax: там обычно появляются чекпоинты, инструкции по запуску и поддерживаемые фреймворки (PyTorch, TensorRT и т.п.).


Читайте также