MiniMax M2.7: открытый ИИ, который сам улучшает себя и пишет продакшн‑код

Что нового

MiniMax выложила в открытый доступ MiniMax M2.7 — крупную языковую модель, которая участвовала в собственном обучении и донастройке.

Ключевые факты и цифры:

Самоэволюция модели: внутренняя версия M2.7 сама оптимизировала программный «скелет» более чем в 100 раундов. Анализировала неудачные запуски, правила код, гоняла оценки, откатывала или принимала изменения. Итог — +30% к производительности в этой задаче.
Успехи в ML‑соревнованиях: на MLE Bench Lite (22 соревнования по машинному обучению) M2.7 получила 66,6% медалей. Выше только Opus‑4.6 и GPT‑5.4.
Инженерия ПО:
- SWE‑Pro: 56,22%, на уровне GPT‑5.3‑Codex.
- SWE Multilingual: 76,5.
- Multi SWE Bench: 52,7.
- VIBE‑Pro: 55,6%, почти как Opus 4.6.
- Terminal Bench 2: 57,0%.
- NL2Repo: 39,8%.
Продакшн‑инциденты: команда MiniMax с помощью M2.7 несколько раз сокращала время восстановления живых сервисов до менее трёх минут.
Офисные задачи: на GDPval‑AA M2.7 набрала ELO 1495 — самый высокий результат среди открытых моделей, выше GPT‑5.3. Модель уверенно работает с Word, Excel, PowerPoint, поддерживает многошаговое редактирование с сохранением форматирования и даёт на выходе редактируемые файлы.
Инструменты и навыки:
- Toolathon: 46,3% точности (глобальный топ‑уровень).
- MM Claw: 97% соблюдения инструкций по более чем 40 сложным навыкам.
- MM Claw end‑to‑end: 62,7%, близко к Sonnet 4.6.
Мультиагентность: встроенная поддержка Agent Teams — несколько агентов с устойчивыми ролями и автономным принятием решений.
Развлечения: улучшена эмоциональная выразительность и сохранение характера. Параллельно MiniMax открыла OpenRoom — веб‑демо с графическим интерфейсом и интерактивной сценой: https://openroom.ai.
Открытый доступ: веса лежат на Hugging Face — https://huggingface.co/MiniMaxAI/MiniMax-M2.7 и на ModelScope; есть вариант через NVIDIA NIM Endpoint.

Как это работает

Самоэволюция MiniMax M2.7

MiniMax использует M2.7 не только как готовый продукт, но и как участника собственного обучения.

Во время разработки команда дала модели доступ к:

собственной «памяти» (внутреннему хранилищу знаний и опыта);
системе навыков (Skills), которые можно создавать и донастраивать;
результатам экспериментов по обучению с подкреплением (RL).

M2.7 сама:

Создавала десятки сложных навыков для RL‑экспериментов.
Обновляла свою память на основе новых задач и результатов.
Меняла процесс обучения, опираясь на то, какие подходы давали лучший результат.

Отдельный пример — оптимизация программного «скелета» (scaffold) для задач программирования:

Модель запускала код, анализировала, где и почему он ломается.
Меняла архитектуру и фрагменты кода.
Прогоняла новые версии через бенчмарки.
Решала, оставить изменения или откатить.

Более 100 таких циклов дали 30% прирост производительности в этой области.

Глубокое понимание инженерных систем

M2.7 обучили не только на чистом коде, но и на сценариях реальной эксплуатации сервисов. Отсюда — акцент на системном мышлении:

анализ логов и трассировок;
сопоставление метрик мониторинга из разных источников;
проверка гипотез о корневой причине инцидента в базах данных;
принятие решений уровня SRE: что перезапустить, что откатить, где изменить конфигурацию.

Это не просто автодополнение кода, а агент, который может вести себя как инженер поддержки продакшена.

Агентные команды и навыки

MiniMax встроила в M2.7 поддержку Agent Teams:

несколько агентов с разными ролями (например, «backend‑инженер», «аналитик данных», «ревьюер безопасности»);
стабильная идентичность ролей — каждый агент помнит свою зону ответственности;
автономное распределение задач и принятие решений внутри команды.

Отдельная подсистема — Skills:

навыки описывают сложные цепочки действий (например, «диагностика инцидента в продакшене», «подготовка отчёта в PowerPoint»);
M2.7 сама помогала создавать такие навыки и тестировать их в RL‑экспериментах;
на бенчмарке MM Claw модель соблюдает инструкции по этим навыкам в 97% случаев.

Работа с инструментами и документами

M2.7 умеет вызывать внешние инструменты (Tool Calling) и работать с файлами:

редактировать Word‑документы с сохранением стилей и структуры;
строить и править Excel‑таблицы и формулы;
собирать презентации PowerPoint, а затем вносить правки несколькими итерациями.

На бенчмарке Toolathon модель показывает 46,3% точности при работе с инструментами, а на GDPval‑AA набирает ELO 1495, что выше GPT‑5.3 среди открытых решений.

Что это значит для вас

Кому MiniMax M2.7 действительно полезна

1. Разработчики и SRE‑команды

M2.7 пригодится, если вы:

разбираете сложные инциденты в продакшене;
исследуете логи и трассировки из нескольких систем мониторинга;
чините баги в распределённых сервисах;
занимаетесь рефакторингом и безопасностью кода.

MiniMax сама использует M2.7 для живых инцидентов и несколько раз снижала время восстановления до менее трёх минут. Это сильный аргумент, если вы ищете ассистента для on‑call‑дежурств и разборов постмортемов.

2. Команды машинного обучения и data‑science

На MLE Bench Lite M2.7 взяла 66,6% медалей на 22 соревнованиях. Это значит, что модель:

понимает постановки задач из ML‑соревнований;
умеет строить рабочие пайплайны для обучения моделей;
может помогать в настройке экспериментов и анализе метрик.

Если вы участвуете в ML‑соревнованиях или строите внутренние бенчмарки, M2.7 — хороший кандидат в «второго пилота».

3. Продакт‑менеджеры, аналитики, офисные сотрудники

Благодаря сильным результатам на GDPval‑AA и поддержке Word/Excel/PPT модель подойдёт для:

подготовки отчётов и презентаций с несколькими итерациями правок;
сводных таблиц и первичного анализа данных в Excel;
редактирования документов с учётом стиля и структуры.

M2.7 умеет не только сгенерировать черновик, но и вносить точечные изменения по комментариям, не ломая форматирование.

4. Создатели игр, интерактивных приложений и контента

У модели усилены эмоциональный интеллект и стабильность персонажей. Вместе с этим MiniMax открыла OpenRoom — веб‑сцену, где можно строить интерактивные взаимодействия с ИИ в графическом интерфейсе.

Если вы делаете:

прототипы игр с живыми NPC;
интерактивные истории;
обучающие симуляции — M2.7 и OpenRoom дадут удобную площадку для экспериментов.

Где MiniMax M2.7 не лучшая идея

Критичные юридические и медицинские решения. Модель сильна в инженерии и офисных задачах, но не предназначена для принятия решений с юридическими или медицинскими рисками.
Проекты, где нужен закрытый корпоративный хостинг без внешних зависимостей. M2.7 можно развернуть локально, но вам придётся самостоятельно решать вопросы инфраструктуры, безопасности и соответствия требованиям регуляторов.
Сценарии, где важна минимальная задержка и жёсткие SLA. Веса открыты, но конечная скорость и стабильность зависят от того, как вы настроите SGLang/vLLM/Transformers и железо.

Доступность из России

MiniMax распространяет M2.7 через Hugging Face, ModelScope и NVIDIA NIM Endpoint. Доступ к этим сервисам может быть ограничен или нестабилен в зависимости от юрисдикции и политики провайдеров. В ряде случаев для скачивания весов или работы с облачными endpoint’ами понадобится VPN и собственная инфраструктура для развёртывания.

Место на рынке

По открытым бенчмаркам M2.7 занимает заметную позицию среди открытых и закрытых моделей.

Сравнение с закрытыми моделями

MLE Bench Lite: M2.7 — 66,6% медалей, уступает только Opus‑4.6 и GPT‑5.4.
VIBE‑Pro: 55,6%, почти на уровне Opus 4.6.
MM Claw end‑to‑end: 62,7%, близко к Sonnet 4.6.

По инженерным и агентным бенчмаркам M2.7 уже играет в одной лиге с крупными закрытыми моделями, хотя прямых цифр по скорости и стоимости запросов MiniMax не раскрывает.

Сравнение с открытыми моделями

На GDPval‑AA M2.7 получила ELO 1495 — выше GPT‑5.3 среди открытых решений.
На SWE‑Pro результат 56,22%, сопоставим с GPT‑5.3‑Codex.
На Toolathon — 46,3% точности, что относит модель к верхнему эшелону по работе с инструментами.

С учётом открытых весов и сильных инженерных метрик M2.7 выглядит как одна из наиболее мощных опций для тех, кто хочет развернуть модель у себя и не зависеть целиком от API крупных провайдеров.

Установка

MiniMax предлагает несколько путей развёртывания M2.7 — от локального запуска до облачных endpoint’ов.

Локальное развёртывание

Скачать модель можно с Hugging Face:

https://huggingface.co/MiniMaxAI/MiniMax-M2.7

MiniMax рекомендует следующие фреймворки для инференса (по алфавиту):

SGLang

Рекомендованный вариант для сервинга MiniMax‑M2.7.

Подробная инструкция: SGLang Deployment Guide (ссылка у MiniMax в документации).

vLLM

Альтернативный высокопроизводительный сервер инференса.

Подробная инструкция: vLLM Deployment Guide.

Transformers

Для интеграции в существующие пайплайны на базе Hugging Face Transformers.

Подробная инструкция: Transformers Deployment Guide.

ModelScope

Весы MiniMax‑M2.7 также доступны через ModelScope.

NVIDIA NIM Endpoint

Если вы не хотите поднимать собственный сервер, MiniMax M2.7 есть в виде NVIDIA NIM Endpoint. Это удобный вариант, если ваша инфраструктура уже крутится вокруг решений NVIDIA.

Как запустить

Ниже — базовый сценарий, как можно встроить M2.7 в свой стек (общая логика, без привязки к конкретной библиотеке, так как MiniMax даёт только ссылки на гайды):

Скачайте веса с Hugging Face или ModelScope.
Поднимите сервер инференса на SGLang, vLLM или Transformers по официальному гайду.
Задайте системный промпт и параметры инференса:
- temperature=1.0, top_p=0.95, top_k=40.
Подключите модель к вашим инструментам через механизм Tool Calling.

Руководство по Tool Calling MiniMax вынесла в отдельный документ — Tool Calling Guide.

Контакты и документация

Репозиторий модели: https://huggingface.co/MiniMaxAI/MiniMax-M2.7
Демонстрация OpenRoom: https://openroom.ai
Руководства по развёртыванию: SGLang / vLLM / Transformers Deployment Guides (на сайте MiniMax)
Руководство по Tool Calling: Tool Calling Guide
Обратная связь: model@minimax.io

Если вам нужна сильная открытая модель для инженерных задач, работы с документами и экспериментов с агентами, MiniMax M2.7 — один из самых интересных вариантов, которые сейчас можно развернуть у себя.