MiMo-V2.5-Pro-UltraSpeed: триллион параметров и до 1000 токенов в секунду — VogueTech

Что нового

Xiaomi показала MiMo-V2.5-Pro-UltraSpeed — конфигурацию триллионной (1T) модели MiMo-V2.5-Pro, заточенную под максимальную скорость генерации.

Ключевые изменения по сравнению с обычной MiMo-V2.5-Pro:

Триллион параметров, но активных — около 42 млрд за счёт архитектуры Mixture-of-Experts (MoE).
FP4-квантование только экспертов (MXFP4):
- эксперты в MoE уходят в 4 бита (FP4, формат MXFP4, блок 32);
- остальные части модели, включая attention-проекции, остаются в более высокой точности (FP8/BF16);
- внимание o_proj в каждом слое не квантовано в FP4 — это снижает потерю качества.
Спекулятивный декодинг DFlash:
- отдельный BF16-драфтер на 5 слоёв заполняет целый блок токенов за один проход;
- блок маски ограничен размером 8 токенов — это уменьшает накладные расходы на проверку и увеличивает параллелизм.
Скорость: в конфигурации UltraSpeed заявлена генерация до 1000 токенов в секунду (при использовании оптимизированного стека и SGLang).
Контекст:
- у бэкона (основной модели) максимальная длина контекста — до 1 000 000 токенов;
- пример конфигурации SGLang из документации запускает модель с контекстом 65 536 токенов.

По качеству FP4-эксперты почти не уступают FP8-базе, а местами даже выигрывают:

Claw-Eval (General Agent, pass^3): 63,8 → 67,8 (+6,27%);
Humanity's Last Exam: 48,0 → 47,0 (–2,08%);
Humanity's Last Exam (без инструментов): 34,0 → 33,0 (–2,94%);
SWE-Bench Pro: 57,2 → 58,8 (+2,80%);
SWE-Bench Verified: 78,9 → 77,4 (–1,90%).

Смысл: модель на FP4 почти не теряет в рассуждениях и коде по сравнению с FP8-версией, но требует меньше памяти и пропускной способности памяти, а за счёт DFlash сокращает число проходов через тяжёлый бэкон.

Как это работает

FP4 только для экспертов

MiMo-V2.5-Pro — это MoE-модель: большая часть параметров сидит в «экспертах», которые подключаются выборочно. Xiaomi использует это так:

Квантование только экспертов в MXFP4:
- эксперты хранятся в FP4 с блоковым форматом MXFP4 (block size 32);
- это резко уменьшает размер модели и нагрузку на память;
- эксперты лучше переносят квантование, чем остальные части сети.
Остальные модули в высокой точности:
- attention-проекции и другие слои остаются в FP8/BF16;
- o_proj в каждом attention-слое полностью исключён из FP4.
FP4 QAT (quantization-aware training):
- модель дообучают с учётом квантования в FP4;
- это позволяет почти сохранить качество FP8-базы.

Архитектура бэкона:

MiMoV2ForCausalLM;
1,02 трлн параметров, из них активных во время одного прохода — 42 млрд;
70 слоёв;
скрытый размер — 6144;
128 голов внимания, 8 KV-голов (GQA);
размер головы: 192 для QK, 128 для V;
Sliding Window Attention (SWA) с окном 128;
RoPE base — 5 000 000;
эксперты в MXFP4, остальное — смешанная точность BF16/FP8.

DFlash: блочный спекулятивный декодинг

Классический спекулятивный декодинг работает так:

Маленький драфт-модель предсказывает несколько следующих токенов.
Большая модель проверяет их через rejection sampling.
Качество вывода не падает, но скорость ограничена:
- чем лучше драфт, тем выше процент принятых токенов;
- но мощный драфт сам по себе дорог по вычислениям.

DFlash меняет структуру драфта:

DFlashDraftModel заполняет целый блок замаскированных позиций за один проход, а не предсказывает токены по одному.
Xiaomi использует:
- 5-слойный драфтер с тем же hidden size 6144;
- 128 голов внимания, 8 KV-голов (GQA);
- SWA с окном 1024;
- размер блока маски — 8 токенов;
- захваченные слои бэкона для дистилляции: [0, 15, 31, 47, 69].
Драфтер работает в BF16, а эксперты бэкона — в MXFP4.

Ключевые технические эффекты:

Переход от линейной к почти константной сложности по длине контекста для драфта:
- драфтер использует Sliding Window Attention и не смотрит на всю историю;
- вычисления на шаг генерации почти не зависят от длины префикса.
Обучение маски на локальном шардe GPU:
- маска генерируется локально, без синхронизации между устройствами;
- одна последовательность даёт десятки тысяч обучающих сигналов по разным позициям и длинам контекста;
- это хорошо согласуется с длинным контекстом MiMo-V2.
Оптимизация обучения:
- используется оптимизатор Muon второго порядка;
- модель само-дистиллируется: драфтер учится у основного бэкона.

Реальные средние длины принятых блоков (сколько токенов подряд бэкон подтверждает):

WebDev — 6,30 токена;
Math500 — 5,56 токена;
HumanEval — 4,54 токена;
MT-Bench — 3,18 токена;
SWE-Bench — 4,29 токена.

То есть при блоке в 8 токенов модель часто принимает сразу 3–6 токенов за один проход бэкона. Это и даёт заявленную скорость до 1000 токенов в секунду при правильной конфигурации кластера.

Что это значит для вас

Для каких задач MiMo-V2.5-Pro-UltraSpeed подходит

MiMo-V2.5-Pro-UltraSpeed ориентирована на крупные инфраструктуры и команды, которые:

обслуживают много одновременных запросов и упираются в пропускную способность GPU;
работают с очень длинными контекстами — до 1 млн токенов;
хотят снизить стоимость инференса триллионной модели без заметной потери качества.

Практические сценарии:

Код и агентные задачи:
- SWE-Bench Pro: +2,8% к FP8-базе;
- Claw-Eval (General Agent): +6,27%. Модель подойдёт для внутренних код-ассистентов, автономных агентов, интеграции с CI/CD.
Аналитика и длинные документы:
- благодаря контексту до 1M токенов можно держать большие базы знаний в одном запросе;
- SWA и DFlash делают генерацию на длинных контекстах менее болезненной по стоимости.
Онлайн-сервисы с жёсткими SLA по задержке:
- скорость до 1000 токенов/с важна для чатов, ассистентов, инструментов для разработчиков;
- FP4 снижает требования к памяти и пропускной способности, что помогает выдерживать нагрузку.

Где MiMo-V2.5-Pro-UltraSpeed не лучший выбор

Малые и средние команды без доступа к многогранным GPU-кластерам:
- пример запуска в SGLang предполагает крупный распределённый сетап с tensor parallel, expert parallel и data parallel;
- для простых задач дешевле и проще использовать модели поменьше.
Проекты, где критична максимальная точность на сложных экзаменах/тестах:
- на Humanity's Last Exam и SWE-Bench Verified FP4-конфигурация немного уступает FP8-базе (до ~3%);
- если важен каждый процент на таких бенчмарках, есть смысл смотреть на более точные, но дорогие варианты.
Развёртывание «на коленке»:
- модель рассчитана на SGLang и сложную параллельную конфигурацию;
- без опыта в распределённом инференсе MoE и FP4-квантования настройка займёт время.

Доступность и ограничения

MiMo-V2.5-Pro-FP4-DFlash опубликована на Hugging Face в коллекции Xiaomi MiMo. Для доступа к репозиторию и загрузки весов может понадобиться VPN и учётная запись Hugging Face, если доступ из вашего региона ограничен.

Для вопросов и обратной связи Xiaomi предлагает писать на mimo@xiaomi.com или присоединяться к сообществу MiMo (ссылки — на Hugging Face-странице коллекции).

Место на рынке

MiMo-V2.5-Pro-UltraSpeed — это представитель класса триллионных MoE-моделей с акцентом на скорость и длинный контекст. В документации нет прямых сравнений по скорости или качеству с GPT-4o, GPT-4.1, Claude 3 или другими флагманами, поэтому оценивать отрыв по цифрам некорректно.

По архитектуре и заявленным характеристикам можно зафиксировать несколько фактов:

Масштаб: 1,02T параметров с 42B активных за проход — это тот же порядок, что и у других современных MoE-моделей на триллионном уровне.
Квантование: переход на FP4 только для экспертов — редкий подход среди публичных моделей такого размера. Большинство решений ограничиваются FP8/INT8.
Контекст: заявленный максимум в 1M токенов ставит MiMo-V2.5-Pro в ряд с немногими моделями, которые умеют работать с контекстами такого масштаба.
Инференс-стек: официальная поддержка DFlash + FP4 в SGLang делает модель интересной для тех, кто уже строит инфраструктуру вокруг этого фреймворка.

Если вам важны публичные бенчмарки «лицом к лицу» с GPT-4o или Claude 3, придётся ориентироваться на внешние независимые тесты — в документации MiMo их нет.

Как запустить

MiMo-V2.5-Pro-FP4-DFlash официально поддерживается в SGLang. Драфтер запускается рядом с бэконом через флаги спекулятивного декодинга и наследует его топологию tensor / expert parallel.

Пример запуска из документации Xiaomi MiMo (сохранён без сокращений):

python3 -m sglang.launch_server \
 --model MiMo-V2.5-Pro-FP4-DFlash \
 --speculative-algorithm DFLASH \
 --speculative-draft-model-path MiMo-V2.5-Pro-FP4-DFlash/dflash \
 --speculative-num-draft-tokens 8 \
 --ep-size 16 \
 --tensor-parallel-size 16 \
 --data-parallel-size 2 \
 --enable-dp-attention \
 --enable-dp-lm-head \
 --quantization fp8 \
 --attention-backend fa3 \
 --moe-dense-tp-size 1 \
 --dtype bfloat16 \
 --mem-fraction-static 0.65 \
 --context-length 65536 \
 --page-size 1 \
 --trust-remote-code \
 --disable-overlap-schedule \
 --skip-server-warmup \
 --dist-init-addr ${MASTER_ADDR}:20000 \
 --nnodes ${WORLD_SIZE} \
 --node-rank ${RANK} \
 --host 0.0.0.0 \
 --port 29999

Пара замечаний по флагам:

--model указывает на репозиторий с FP4-бэконом и конфигом;
--speculative-draft-model-path — путь к поддиректории dflash/ с весами драфтера;
--speculative-num-draft-tokens 8 задаёт размер блока, который драфтер предсказывает за раз;
--ep-size, --tensor-parallel-size, --data-parallel-size задают топологию распределения модели по кластерам;
--quantization fp8 и --dtype bfloat16 включают смешанную точность: FP8 для части путей, BF16 для вычислений, FP4 — только для MoE-экспертов согласно конфигу.

Для корректного запуска потребуется кластер с несколькими узлами и поддержкой распределённого запуска PyTorch. Все детали по весам и лицензии — на странице коллекции Xiaomi MiMo на Hugging Face.

Для кого эта модель

Кому MiMo-V2.5-Pro-UltraSpeed особенно интересна:

крупные продуктовые команды и облачные провайдеры, которые хотят развернуть свою триллионную MoE-модель;
инфраструктурные команды, которые уже используют SGLang и хотят поэкспериментировать с FP4 + DFlash;
исследователи длинного контекста и агентных систем, которым важен 1M контекст и высокая пропускная способность.

Кому лучше посмотреть на другие варианты:

небольшие стартапы без доступа к большим GPU-кластерам;
команды, которым достаточно моделей в диапазоне 7–70B параметров;
те, кому нужна полностью управляемая SaaS-модель без хлопот с развёртыванием.

Если вы готовы инвестировать время в инфраструктуру и вам нужен быстрый триллионник с длинным контекстом, MiMo-V2.5-Pro-UltraSpeed даёт редкое сочетание FP4-квантования экспертов и блочного спекулятивного декодинга с DFlash.