- Дата публикации
MiMo-V2.5-Pro-UltraSpeed: триллион параметров и до 1000 токенов в секунду
Что нового
Xiaomi показала MiMo-V2.5-Pro-UltraSpeed — конфигурацию триллионной (1T) модели MiMo-V2.5-Pro, заточенную под максимальную скорость генерации.
Ключевые изменения по сравнению с обычной MiMo-V2.5-Pro:
- Триллион параметров, но активных — около 42 млрд за счёт архитектуры Mixture-of-Experts (MoE).
- FP4-квантование только экспертов (MXFP4):
- эксперты в MoE уходят в 4 бита (FP4, формат MXFP4, блок 32);
- остальные части модели, включая attention-проекции, остаются в более высокой точности (FP8/BF16);
- внимание
o_projв каждом слое не квантовано в FP4 — это снижает потерю качества.
- Спекулятивный декодинг DFlash:
- отдельный BF16-драфтер на 5 слоёв заполняет целый блок токенов за один проход;
- блок маски ограничен размером 8 токенов — это уменьшает накладные расходы на проверку и увеличивает параллелизм.
- Скорость: в конфигурации UltraSpeed заявлена генерация до 1000 токенов в секунду (при использовании оптимизированного стека и SGLang).
- Контекст:
- у бэкона (основной модели) максимальная длина контекста — до 1 000 000 токенов;
- пример конфигурации SGLang из документации запускает модель с контекстом 65 536 токенов.
По качеству FP4-эксперты почти не уступают FP8-базе, а местами даже выигрывают:
- Claw-Eval (General Agent, pass^3): 63,8 → 67,8 (+6,27%);
- Humanity's Last Exam: 48,0 → 47,0 (–2,08%);
- Humanity's Last Exam (без инструментов): 34,0 → 33,0 (–2,94%);
- SWE-Bench Pro: 57,2 → 58,8 (+2,80%);
- SWE-Bench Verified: 78,9 → 77,4 (–1,90%).
Смысл: модель на FP4 почти не теряет в рассуждениях и коде по сравнению с FP8-версией, но требует меньше памяти и пропускной способности памяти, а за счёт DFlash сокращает число проходов через тяжёлый бэкон.
Как это работает
FP4 только для экспертов
MiMo-V2.5-Pro — это MoE-модель: большая часть параметров сидит в «экспертах», которые подключаются выборочно. Xiaomi использует это так:
- Квантование только экспертов в MXFP4:
- эксперты хранятся в FP4 с блоковым форматом MXFP4 (block size 32);
- это резко уменьшает размер модели и нагрузку на память;
- эксперты лучше переносят квантование, чем остальные части сети.
- Остальные модули в высокой точности:
- attention-проекции и другие слои остаются в FP8/BF16;
o_projв каждом attention-слое полностью исключён из FP4.
- FP4 QAT (quantization-aware training):
- модель дообучают с учётом квантования в FP4;
- это позволяет почти сохранить качество FP8-базы.
Архитектура бэкона:
- MiMoV2ForCausalLM;
- 1,02 трлн параметров, из них активных во время одного прохода — 42 млрд;
- 70 слоёв;
- скрытый размер — 6144;
- 128 голов внимания, 8 KV-голов (GQA);
- размер головы: 192 для QK, 128 для V;
- Sliding Window Attention (SWA) с окном 128;
- RoPE base — 5 000 000;
- эксперты в MXFP4, остальное — смешанная точность BF16/FP8.
DFlash: блочный спекулятивный декодинг
Классический спекулятивный декодинг работает так:
- Маленький драфт-модель предсказывает несколько следующих токенов.
- Большая модель проверяет их через rejection sampling.
- Качество вывода не падает, но скорость ограничена:
- чем лучше драфт, тем выше процент принятых токенов;
- но мощный драфт сам по себе дорог по вычислениям.
DFlash меняет структуру драфта:
- DFlashDraftModel заполняет целый блок замаскированных позиций за один проход, а не предсказывает токены по одному.
- Xiaomi использует:
- 5-слойный драфтер с тем же hidden size 6144;
- 128 голов внимания, 8 KV-голов (GQA);
- SWA с окном 1024;
- размер блока маски — 8 токенов;
- захваченные слои бэкона для дистилляции: [0, 15, 31, 47, 69].
- Драфтер работает в BF16, а эксперты бэкона — в MXFP4.
Ключевые технические эффекты:
- Переход от линейной к почти константной сложности по длине контекста для драфта:
- драфтер использует Sliding Window Attention и не смотрит на всю историю;
- вычисления на шаг генерации почти не зависят от длины префикса.
- Обучение маски на локальном шардe GPU:
- маска генерируется локально, без синхронизации между устройствами;
- одна последовательность даёт десятки тысяч обучающих сигналов по разным позициям и длинам контекста;
- это хорошо согласуется с длинным контекстом MiMo-V2.
- Оптимизация обучения:
- используется оптимизатор Muon второго порядка;
- модель само-дистиллируется: драфтер учится у основного бэкона.
Реальные средние длины принятых блоков (сколько токенов подряд бэкон подтверждает):
- WebDev — 6,30 токена;
- Math500 — 5,56 токена;
- HumanEval — 4,54 токена;
- MT-Bench — 3,18 токена;
- SWE-Bench — 4,29 токена.
То есть при блоке в 8 токенов модель часто принимает сразу 3–6 токенов за один проход бэкона. Это и даёт заявленную скорость до 1000 токенов в секунду при правильной конфигурации кластера.
Что это значит для вас
Для каких задач MiMo-V2.5-Pro-UltraSpeed подходит
MiMo-V2.5-Pro-UltraSpeed ориентирована на крупные инфраструктуры и команды, которые:
- обслуживают много одновременных запросов и упираются в пропускную способность GPU;
- работают с очень длинными контекстами — до 1 млн токенов;
- хотят снизить стоимость инференса триллионной модели без заметной потери качества.
Практические сценарии:
-
Код и агентные задачи:
- SWE-Bench Pro: +2,8% к FP8-базе;
- Claw-Eval (General Agent): +6,27%. Модель подойдёт для внутренних код-ассистентов, автономных агентов, интеграции с CI/CD.
-
Аналитика и длинные документы:
- благодаря контексту до 1M токенов можно держать большие базы знаний в одном запросе;
- SWA и DFlash делают генерацию на длинных контекстах менее болезненной по стоимости.
-
Онлайн-сервисы с жёсткими SLA по задержке:
- скорость до 1000 токенов/с важна для чатов, ассистентов, инструментов для разработчиков;
- FP4 снижает требования к памяти и пропускной способности, что помогает выдерживать нагрузку.
Где MiMo-V2.5-Pro-UltraSpeed не лучший выбор
-
Малые и средние команды без доступа к многогранным GPU-кластерам:
- пример запуска в SGLang предполагает крупный распределённый сетап с tensor parallel, expert parallel и data parallel;
- для простых задач дешевле и проще использовать модели поменьше.
-
Проекты, где критична максимальная точность на сложных экзаменах/тестах:
- на Humanity's Last Exam и SWE-Bench Verified FP4-конфигурация немного уступает FP8-базе (до ~3%);
- если важен каждый процент на таких бенчмарках, есть смысл смотреть на более точные, но дорогие варианты.
-
Развёртывание «на коленке»:
- модель рассчитана на SGLang и сложную параллельную конфигурацию;
- без опыта в распределённом инференсе MoE и FP4-квантования настройка займёт время.
Доступность и ограничения
MiMo-V2.5-Pro-FP4-DFlash опубликована на Hugging Face в коллекции Xiaomi MiMo. Для доступа к репозиторию и загрузки весов может понадобиться VPN и учётная запись Hugging Face, если доступ из вашего региона ограничен.
Для вопросов и обратной связи Xiaomi предлагает писать на mimo@xiaomi.com или присоединяться к сообществу MiMo (ссылки — на Hugging Face-странице коллекции).
Место на рынке
MiMo-V2.5-Pro-UltraSpeed — это представитель класса триллионных MoE-моделей с акцентом на скорость и длинный контекст. В документации нет прямых сравнений по скорости или качеству с GPT-4o, GPT-4.1, Claude 3 или другими флагманами, поэтому оценивать отрыв по цифрам некорректно.
По архитектуре и заявленным характеристикам можно зафиксировать несколько фактов:
- Масштаб: 1,02T параметров с 42B активных за проход — это тот же порядок, что и у других современных MoE-моделей на триллионном уровне.
- Квантование: переход на FP4 только для экспертов — редкий подход среди публичных моделей такого размера. Большинство решений ограничиваются FP8/INT8.
- Контекст: заявленный максимум в 1M токенов ставит MiMo-V2.5-Pro в ряд с немногими моделями, которые умеют работать с контекстами такого масштаба.
- Инференс-стек: официальная поддержка DFlash + FP4 в SGLang делает модель интересной для тех, кто уже строит инфраструктуру вокруг этого фреймворка.
Если вам важны публичные бенчмарки «лицом к лицу» с GPT-4o или Claude 3, придётся ориентироваться на внешние независимые тесты — в документации MiMo их нет.
Как запустить
MiMo-V2.5-Pro-FP4-DFlash официально поддерживается в SGLang. Драфтер запускается рядом с бэконом через флаги спекулятивного декодинга и наследует его топологию tensor / expert parallel.
Пример запуска из документации Xiaomi MiMo (сохранён без сокращений):
python3 -m sglang.launch_server \
--model MiMo-V2.5-Pro-FP4-DFlash \
--speculative-algorithm DFLASH \
--speculative-draft-model-path MiMo-V2.5-Pro-FP4-DFlash/dflash \
--speculative-num-draft-tokens 8 \
--ep-size 16 \
--tensor-parallel-size 16 \
--data-parallel-size 2 \
--enable-dp-attention \
--enable-dp-lm-head \
--quantization fp8 \
--attention-backend fa3 \
--moe-dense-tp-size 1 \
--dtype bfloat16 \
--mem-fraction-static 0.65 \
--context-length 65536 \
--page-size 1 \
--trust-remote-code \
--disable-overlap-schedule \
--skip-server-warmup \
--dist-init-addr ${MASTER_ADDR}:20000 \
--nnodes ${WORLD_SIZE} \
--node-rank ${RANK} \
--host 0.0.0.0 \
--port 29999
Пара замечаний по флагам:
--modelуказывает на репозиторий с FP4-бэконом и конфигом;--speculative-draft-model-path— путь к поддиректорииdflash/с весами драфтера;--speculative-num-draft-tokens 8задаёт размер блока, который драфтер предсказывает за раз;--ep-size,--tensor-parallel-size,--data-parallel-sizeзадают топологию распределения модели по кластерам;--quantization fp8и--dtype bfloat16включают смешанную точность: FP8 для части путей, BF16 для вычислений, FP4 — только для MoE-экспертов согласно конфигу.
Для корректного запуска потребуется кластер с несколькими узлами и поддержкой распределённого запуска PyTorch. Все детали по весам и лицензии — на странице коллекции Xiaomi MiMo на Hugging Face.
Для кого эта модель
Кому MiMo-V2.5-Pro-UltraSpeed особенно интересна:
- крупные продуктовые команды и облачные провайдеры, которые хотят развернуть свою триллионную MoE-модель;
- инфраструктурные команды, которые уже используют SGLang и хотят поэкспериментировать с FP4 + DFlash;
- исследователи длинного контекста и агентных систем, которым важен 1M контекст и высокая пропускная способность.
Кому лучше посмотреть на другие варианты:
- небольшие стартапы без доступа к большим GPU-кластерам;
- команды, которым достаточно моделей в диапазоне 7–70B параметров;
- те, кому нужна полностью управляемая SaaS-модель без хлопот с развёртыванием.
Если вы готовы инвестировать время в инфраструктуру и вам нужен быстрый триллионник с длинным контекстом, MiMo-V2.5-Pro-UltraSpeed даёт редкое сочетание FP4-квантования экспертов и блочного спекулятивного декодинга с DFlash.