Дата публикации
ai_products

MiMo-V2.5-Pro-UltraSpeed: триллион параметров и до 1000 токенов в секунду

Что нового

Xiaomi показала MiMo-V2.5-Pro-UltraSpeed — конфигурацию триллионной (1T) модели MiMo-V2.5-Pro, заточенную под максимальную скорость генерации.

Ключевые изменения по сравнению с обычной MiMo-V2.5-Pro:

  • Триллион параметров, но активных — около 42 млрд за счёт архитектуры Mixture-of-Experts (MoE).
  • FP4-квантование только экспертов (MXFP4):
    • эксперты в MoE уходят в 4 бита (FP4, формат MXFP4, блок 32);
    • остальные части модели, включая attention-проекции, остаются в более высокой точности (FP8/BF16);
    • внимание o_proj в каждом слое не квантовано в FP4 — это снижает потерю качества.
  • Спекулятивный декодинг DFlash:
    • отдельный BF16-драфтер на 5 слоёв заполняет целый блок токенов за один проход;
    • блок маски ограничен размером 8 токенов — это уменьшает накладные расходы на проверку и увеличивает параллелизм.
  • Скорость: в конфигурации UltraSpeed заявлена генерация до 1000 токенов в секунду (при использовании оптимизированного стека и SGLang).
  • Контекст:
    • у бэкона (основной модели) максимальная длина контекста — до 1 000 000 токенов;
    • пример конфигурации SGLang из документации запускает модель с контекстом 65 536 токенов.

По качеству FP4-эксперты почти не уступают FP8-базе, а местами даже выигрывают:

  • Claw-Eval (General Agent, pass^3): 63,8 → 67,8 (+6,27%);
  • Humanity's Last Exam: 48,0 → 47,0 (–2,08%);
  • Humanity's Last Exam (без инструментов): 34,0 → 33,0 (–2,94%);
  • SWE-Bench Pro: 57,2 → 58,8 (+2,80%);
  • SWE-Bench Verified: 78,9 → 77,4 (–1,90%).

Смысл: модель на FP4 почти не теряет в рассуждениях и коде по сравнению с FP8-версией, но требует меньше памяти и пропускной способности памяти, а за счёт DFlash сокращает число проходов через тяжёлый бэкон.

Как это работает

FP4 только для экспертов

MiMo-V2.5-Pro — это MoE-модель: большая часть параметров сидит в «экспертах», которые подключаются выборочно. Xiaomi использует это так:

  • Квантование только экспертов в MXFP4:
    • эксперты хранятся в FP4 с блоковым форматом MXFP4 (block size 32);
    • это резко уменьшает размер модели и нагрузку на память;
    • эксперты лучше переносят квантование, чем остальные части сети.
  • Остальные модули в высокой точности:
    • attention-проекции и другие слои остаются в FP8/BF16;
    • o_proj в каждом attention-слое полностью исключён из FP4.
  • FP4 QAT (quantization-aware training):
    • модель дообучают с учётом квантования в FP4;
    • это позволяет почти сохранить качество FP8-базы.

Архитектура бэкона:

  • MiMoV2ForCausalLM;
  • 1,02 трлн параметров, из них активных во время одного прохода — 42 млрд;
  • 70 слоёв;
  • скрытый размер — 6144;
  • 128 голов внимания, 8 KV-голов (GQA);
  • размер головы: 192 для QK, 128 для V;
  • Sliding Window Attention (SWA) с окном 128;
  • RoPE base — 5 000 000;
  • эксперты в MXFP4, остальное — смешанная точность BF16/FP8.

DFlash: блочный спекулятивный декодинг

Классический спекулятивный декодинг работает так:

  1. Маленький драфт-модель предсказывает несколько следующих токенов.
  2. Большая модель проверяет их через rejection sampling.
  3. Качество вывода не падает, но скорость ограничена:
    • чем лучше драфт, тем выше процент принятых токенов;
    • но мощный драфт сам по себе дорог по вычислениям.

DFlash меняет структуру драфта:

  • DFlashDraftModel заполняет целый блок замаскированных позиций за один проход, а не предсказывает токены по одному.
  • Xiaomi использует:
    • 5-слойный драфтер с тем же hidden size 6144;
    • 128 голов внимания, 8 KV-голов (GQA);
    • SWA с окном 1024;
    • размер блока маски — 8 токенов;
    • захваченные слои бэкона для дистилляции: [0, 15, 31, 47, 69].
  • Драфтер работает в BF16, а эксперты бэкона — в MXFP4.

Ключевые технические эффекты:

  • Переход от линейной к почти константной сложности по длине контекста для драфта:
    • драфтер использует Sliding Window Attention и не смотрит на всю историю;
    • вычисления на шаг генерации почти не зависят от длины префикса.
  • Обучение маски на локальном шардe GPU:
    • маска генерируется локально, без синхронизации между устройствами;
    • одна последовательность даёт десятки тысяч обучающих сигналов по разным позициям и длинам контекста;
    • это хорошо согласуется с длинным контекстом MiMo-V2.
  • Оптимизация обучения:
    • используется оптимизатор Muon второго порядка;
    • модель само-дистиллируется: драфтер учится у основного бэкона.

Реальные средние длины принятых блоков (сколько токенов подряд бэкон подтверждает):

  • WebDev — 6,30 токена;
  • Math500 — 5,56 токена;
  • HumanEval — 4,54 токена;
  • MT-Bench — 3,18 токена;
  • SWE-Bench — 4,29 токена.

То есть при блоке в 8 токенов модель часто принимает сразу 3–6 токенов за один проход бэкона. Это и даёт заявленную скорость до 1000 токенов в секунду при правильной конфигурации кластера.

Что это значит для вас

Для каких задач MiMo-V2.5-Pro-UltraSpeed подходит

MiMo-V2.5-Pro-UltraSpeed ориентирована на крупные инфраструктуры и команды, которые:

  • обслуживают много одновременных запросов и упираются в пропускную способность GPU;
  • работают с очень длинными контекстами — до 1 млн токенов;
  • хотят снизить стоимость инференса триллионной модели без заметной потери качества.

Практические сценарии:

  • Код и агентные задачи:

    • SWE-Bench Pro: +2,8% к FP8-базе;
    • Claw-Eval (General Agent): +6,27%. Модель подойдёт для внутренних код-ассистентов, автономных агентов, интеграции с CI/CD.
  • Аналитика и длинные документы:

    • благодаря контексту до 1M токенов можно держать большие базы знаний в одном запросе;
    • SWA и DFlash делают генерацию на длинных контекстах менее болезненной по стоимости.
  • Онлайн-сервисы с жёсткими SLA по задержке:

    • скорость до 1000 токенов/с важна для чатов, ассистентов, инструментов для разработчиков;
    • FP4 снижает требования к памяти и пропускной способности, что помогает выдерживать нагрузку.

Где MiMo-V2.5-Pro-UltraSpeed не лучший выбор

  • Малые и средние команды без доступа к многогранным GPU-кластерам:

    • пример запуска в SGLang предполагает крупный распределённый сетап с tensor parallel, expert parallel и data parallel;
    • для простых задач дешевле и проще использовать модели поменьше.
  • Проекты, где критична максимальная точность на сложных экзаменах/тестах:

    • на Humanity's Last Exam и SWE-Bench Verified FP4-конфигурация немного уступает FP8-базе (до ~3%);
    • если важен каждый процент на таких бенчмарках, есть смысл смотреть на более точные, но дорогие варианты.
  • Развёртывание «на коленке»:

    • модель рассчитана на SGLang и сложную параллельную конфигурацию;
    • без опыта в распределённом инференсе MoE и FP4-квантования настройка займёт время.

Доступность и ограничения

MiMo-V2.5-Pro-FP4-DFlash опубликована на Hugging Face в коллекции Xiaomi MiMo. Для доступа к репозиторию и загрузки весов может понадобиться VPN и учётная запись Hugging Face, если доступ из вашего региона ограничен.

Для вопросов и обратной связи Xiaomi предлагает писать на mimo@xiaomi.com или присоединяться к сообществу MiMo (ссылки — на Hugging Face-странице коллекции).

Место на рынке

MiMo-V2.5-Pro-UltraSpeed — это представитель класса триллионных MoE-моделей с акцентом на скорость и длинный контекст. В документации нет прямых сравнений по скорости или качеству с GPT-4o, GPT-4.1, Claude 3 или другими флагманами, поэтому оценивать отрыв по цифрам некорректно.

По архитектуре и заявленным характеристикам можно зафиксировать несколько фактов:

  • Масштаб: 1,02T параметров с 42B активных за проход — это тот же порядок, что и у других современных MoE-моделей на триллионном уровне.
  • Квантование: переход на FP4 только для экспертов — редкий подход среди публичных моделей такого размера. Большинство решений ограничиваются FP8/INT8.
  • Контекст: заявленный максимум в 1M токенов ставит MiMo-V2.5-Pro в ряд с немногими моделями, которые умеют работать с контекстами такого масштаба.
  • Инференс-стек: официальная поддержка DFlash + FP4 в SGLang делает модель интересной для тех, кто уже строит инфраструктуру вокруг этого фреймворка.

Если вам важны публичные бенчмарки «лицом к лицу» с GPT-4o или Claude 3, придётся ориентироваться на внешние независимые тесты — в документации MiMo их нет.

Как запустить

MiMo-V2.5-Pro-FP4-DFlash официально поддерживается в SGLang. Драфтер запускается рядом с бэконом через флаги спекулятивного декодинга и наследует его топологию tensor / expert parallel.

Пример запуска из документации Xiaomi MiMo (сохранён без сокращений):

python3 -m sglang.launch_server \
 --model MiMo-V2.5-Pro-FP4-DFlash \
 --speculative-algorithm DFLASH \
 --speculative-draft-model-path MiMo-V2.5-Pro-FP4-DFlash/dflash \
 --speculative-num-draft-tokens 8 \
 --ep-size 16 \
 --tensor-parallel-size 16 \
 --data-parallel-size 2 \
 --enable-dp-attention \
 --enable-dp-lm-head \
 --quantization fp8 \
 --attention-backend fa3 \
 --moe-dense-tp-size 1 \
 --dtype bfloat16 \
 --mem-fraction-static 0.65 \
 --context-length 65536 \
 --page-size 1 \
 --trust-remote-code \
 --disable-overlap-schedule \
 --skip-server-warmup \
 --dist-init-addr ${MASTER_ADDR}:20000 \
 --nnodes ${WORLD_SIZE} \
 --node-rank ${RANK} \
 --host 0.0.0.0 \
 --port 29999

Пара замечаний по флагам:

  • --model указывает на репозиторий с FP4-бэконом и конфигом;
  • --speculative-draft-model-path — путь к поддиректории dflash/ с весами драфтера;
  • --speculative-num-draft-tokens 8 задаёт размер блока, который драфтер предсказывает за раз;
  • --ep-size, --tensor-parallel-size, --data-parallel-size задают топологию распределения модели по кластерам;
  • --quantization fp8 и --dtype bfloat16 включают смешанную точность: FP8 для части путей, BF16 для вычислений, FP4 — только для MoE-экспертов согласно конфигу.

Для корректного запуска потребуется кластер с несколькими узлами и поддержкой распределённого запуска PyTorch. Все детали по весам и лицензии — на странице коллекции Xiaomi MiMo на Hugging Face.

Для кого эта модель

Кому MiMo-V2.5-Pro-UltraSpeed особенно интересна:

  • крупные продуктовые команды и облачные провайдеры, которые хотят развернуть свою триллионную MoE-модель;
  • инфраструктурные команды, которые уже используют SGLang и хотят поэкспериментировать с FP4 + DFlash;
  • исследователи длинного контекста и агентных систем, которым важен 1M контекст и высокая пропускная способность.

Кому лучше посмотреть на другие варианты:

  • небольшие стартапы без доступа к большим GPU-кластерам;
  • команды, которым достаточно моделей в диапазоне 7–70B параметров;
  • те, кому нужна полностью управляемая SaaS-модель без хлопот с развёртыванием.

Если вы готовы инвестировать время в инфраструктуру и вам нужен быстрый триллионник с длинным контекстом, MiMo-V2.5-Pro-UltraSpeed даёт редкое сочетание FP4-квантования экспертов и блочного спекулятивного декодинга с DFlash.


Читайте также