В llama.cpp добавили поддержку MTP: Qwen3.6 27B ускорили в 2,4 раза — VogueTech

Что нового

В репозитории llama.cpp предложили обновление с поддержкой MTP (Multi-Token Prefill / Multi-Token Processing) для работы с крупными языковыми моделями. Ключевой результат, который авторы подчёркивают в обсуждении:

Qwen3.6 27B на новом режиме работает в 2,4 раза быстрее по сравнению с текущей реализацией в llama.cpp.
Улучшение касается именно этапа обработки токенов (prefill / генерация), то есть ускоряется фактический прогон модели.
Изменения оформлены как pull request в GitHub, который пока не прошёл финальный код-ревью и не слит в основную ветку.
Для слияния PR требуется минимум два одобрения от ревьюеров и владельцев кода.

Сейчас изменения проходят ревью у:

CISC — владелец кода, отмечен как обязательный ревьюер.
ggerganov — автор llama.cpp и владелец кода, тоже должен одобрить изменения.

До их финального решения часть GitHub‑функций для этого PR недоступна: нельзя применять предложения по коду, нельзя объединять несколько предложений в один коммит, нельзя мёржить изменения.

Как это работает

llama.cpp — это проект, который запускает большие языковые модели локально на CPU и GPU, без облака. Обновление добавляет в него поддержку MTP — режима, при котором движок эффективнее обрабатывает токены.

GitHub‑интерфейс вокруг PR сейчас показывает множество ограничений:

Нельзя применить предложения по коду, пока PR закрыт или стоит в очереди на merge.
Нельзя редактировать удалённые строки: «Applying suggestions on deleted lines is not supported».
Нельзя применять предложения из отложенных (pending) ревью.
Нельзя массово применять несколько предложений, если они затрагивают одну и ту же строку.

Это значит, что авторы PR уже получили замечания по коду, но до тех пор, пока PR не переведут в статус «готов к ревью» и не снимут ограничения, GitHub не позволит автоматически принять текстовые правки.

С технической стороны важно только одно: поддержка MTP в llama.cpp даёт прирост производительности. В обсуждении фигурирует конкретный кейс — Qwen3.6 27B, где замерили ускорение в 2,4 раза.

Что это значит для вас

Если вы:

запускаете большие модели локально через llama.cpp;
используете или планируете использовать Qwen3.6 27B;
упираетесь в скорость генерации текста,

поддержка MTP в перспективе заметно ускорит ваши пайплайны. В реальных сценариях это полезно для:

локальных ассистентов и чат‑ботов, которые должны отвечать быстрее;
офлайн‑аналитики текста, где нужно прогнать через модель большие объёмы данных;
прототипирования и отладки промптов, когда вы много раз подряд прогоняете одну и ту же модель.

Ограничения и нюансы:

Сейчас это ещё не часть стабильного релиза llama.cpp — изменения живут в pull request и зависят от решения мейнтейнеров.
Для использования придётся либо ждать, пока PR примут, либо собирать llama.cpp из ветки, куда автор выложил эти изменения (сейчас в тексте GitHub‑интерфейса конкретная ветка не указана).
Поддержка MTP даёт выигрыш в скорости, но не меняет качество ответов модели: Qwen3.6 27B останется тем же Qwen3.6 27B, только работает быстрее.

Если вам важна максимальная стабильность, а не эксперименты с производительностью, разумно подождать официального мёрджа и релиза. Если же вы собираете свои сборки llama.cpp и привыкли жить на острие GitHub‑веток, MTP стоит попробовать сразу после появления доступного кода.

Место на рынке

llama.cpp конкурирует не с конкретными моделями вроде GPT-4o или Claude 3.5, а с другими рантаймами и фреймворками для локального запуска LLM: собственные бэкенды Qwen, различные обёртки вокруг PyTorch/ONNX, а также другие C/C++‑движки.

В этом контексте поддержка MTP и ускорение Qwen3.6 27B в 2,4 раза — важный аргумент в пользу llama.cpp для тех, кто:

хочет выжать максимум из локального железа без Python‑стека;
строит продукты, где скорость LLM критична, а облачные API использовать нельзя или дорого.

Прямых численных сравнений с GPT-4o, Claude 3.5 или другими облачными моделями в обсуждении нет. Из доступной информации можно сделать только один конкретный вывод: внутри экосистемы llama.cpp новый режим делает Qwen3.6 27B ощутимо быстрее, что усиливает позиции проекта среди инструментов для локального запуска крупных языковых моделей.

Что нового

Как это работает

Что это значит для вас

Место на рынке

Читайте также