Дата публикации
ai_products

В llama.cpp добавили поддержку MTP: Qwen3.6 27B ускорили в 2,4 раза

Что нового

В репозитории llama.cpp предложили обновление с поддержкой MTP (Multi-Token Prefill / Multi-Token Processing) для работы с крупными языковыми моделями. Ключевой результат, который авторы подчёркивают в обсуждении:

  • Qwen3.6 27B на новом режиме работает в 2,4 раза быстрее по сравнению с текущей реализацией в llama.cpp.
  • Улучшение касается именно этапа обработки токенов (prefill / генерация), то есть ускоряется фактический прогон модели.
  • Изменения оформлены как pull request в GitHub, который пока не прошёл финальный код-ревью и не слит в основную ветку.
  • Для слияния PR требуется минимум два одобрения от ревьюеров и владельцев кода.

Сейчас изменения проходят ревью у:

  • CISC — владелец кода, отмечен как обязательный ревьюер.
  • ggerganov — автор llama.cpp и владелец кода, тоже должен одобрить изменения.

До их финального решения часть GitHub‑функций для этого PR недоступна: нельзя применять предложения по коду, нельзя объединять несколько предложений в один коммит, нельзя мёржить изменения.

Как это работает

llama.cpp — это проект, который запускает большие языковые модели локально на CPU и GPU, без облака. Обновление добавляет в него поддержку MTP — режима, при котором движок эффективнее обрабатывает токены.

GitHub‑интерфейс вокруг PR сейчас показывает множество ограничений:

  • Нельзя применить предложения по коду, пока PR закрыт или стоит в очереди на merge.
  • Нельзя редактировать удалённые строки: «Applying suggestions on deleted lines is not supported».
  • Нельзя применять предложения из отложенных (pending) ревью.
  • Нельзя массово применять несколько предложений, если они затрагивают одну и ту же строку.

Это значит, что авторы PR уже получили замечания по коду, но до тех пор, пока PR не переведут в статус «готов к ревью» и не снимут ограничения, GitHub не позволит автоматически принять текстовые правки.

С технической стороны важно только одно: поддержка MTP в llama.cpp даёт прирост производительности. В обсуждении фигурирует конкретный кейс — Qwen3.6 27B, где замерили ускорение в 2,4 раза.

Что это значит для вас

Если вы:

  • запускаете большие модели локально через llama.cpp;
  • используете или планируете использовать Qwen3.6 27B;
  • упираетесь в скорость генерации текста,

поддержка MTP в перспективе заметно ускорит ваши пайплайны. В реальных сценариях это полезно для:

  • локальных ассистентов и чат‑ботов, которые должны отвечать быстрее;
  • офлайн‑аналитики текста, где нужно прогнать через модель большие объёмы данных;
  • прототипирования и отладки промптов, когда вы много раз подряд прогоняете одну и ту же модель.

Ограничения и нюансы:

  • Сейчас это ещё не часть стабильного релиза llama.cpp — изменения живут в pull request и зависят от решения мейнтейнеров.
  • Для использования придётся либо ждать, пока PR примут, либо собирать llama.cpp из ветки, куда автор выложил эти изменения (сейчас в тексте GitHub‑интерфейса конкретная ветка не указана).
  • Поддержка MTP даёт выигрыш в скорости, но не меняет качество ответов модели: Qwen3.6 27B останется тем же Qwen3.6 27B, только работает быстрее.

Если вам важна максимальная стабильность, а не эксперименты с производительностью, разумно подождать официального мёрджа и релиза. Если же вы собираете свои сборки llama.cpp и привыкли жить на острие GitHub‑веток, MTP стоит попробовать сразу после появления доступного кода.

Место на рынке

llama.cpp конкурирует не с конкретными моделями вроде GPT-4o или Claude 3.5, а с другими рантаймами и фреймворками для локального запуска LLM: собственные бэкенды Qwen, различные обёртки вокруг PyTorch/ONNX, а также другие C/C++‑движки.

В этом контексте поддержка MTP и ускорение Qwen3.6 27B в 2,4 раза — важный аргумент в пользу llama.cpp для тех, кто:

  • хочет выжать максимум из локального железа без Python‑стека;
  • строит продукты, где скорость LLM критична, а облачные API использовать нельзя или дорого.

Прямых численных сравнений с GPT-4o, Claude 3.5 или другими облачными моделями в обсуждении нет. Из доступной информации можно сделать только один конкретный вывод: внутри экосистемы llama.cpp новый режим делает Qwen3.6 27B ощутимо быстрее, что усиливает позиции проекта среди инструментов для локального запуска крупных языковых моделей.


Читайте также