- Дата публикации
В llama.cpp добавили поддержку MTP: Qwen3.6 27B ускорили в 2,4 раза
Что нового
В репозитории llama.cpp предложили обновление с поддержкой MTP (Multi-Token Prefill / Multi-Token Processing) для работы с крупными языковыми моделями. Ключевой результат, который авторы подчёркивают в обсуждении:
- Qwen3.6 27B на новом режиме работает в 2,4 раза быстрее по сравнению с текущей реализацией в llama.cpp.
- Улучшение касается именно этапа обработки токенов (prefill / генерация), то есть ускоряется фактический прогон модели.
- Изменения оформлены как pull request в GitHub, который пока не прошёл финальный код-ревью и не слит в основную ветку.
- Для слияния PR требуется минимум два одобрения от ревьюеров и владельцев кода.
Сейчас изменения проходят ревью у:
- CISC — владелец кода, отмечен как обязательный ревьюер.
- ggerganov — автор llama.cpp и владелец кода, тоже должен одобрить изменения.
До их финального решения часть GitHub‑функций для этого PR недоступна: нельзя применять предложения по коду, нельзя объединять несколько предложений в один коммит, нельзя мёржить изменения.
Как это работает
llama.cpp — это проект, который запускает большие языковые модели локально на CPU и GPU, без облака. Обновление добавляет в него поддержку MTP — режима, при котором движок эффективнее обрабатывает токены.
GitHub‑интерфейс вокруг PR сейчас показывает множество ограничений:
- Нельзя применить предложения по коду, пока PR закрыт или стоит в очереди на merge.
- Нельзя редактировать удалённые строки: «Applying suggestions on deleted lines is not supported».
- Нельзя применять предложения из отложенных (pending) ревью.
- Нельзя массово применять несколько предложений, если они затрагивают одну и ту же строку.
Это значит, что авторы PR уже получили замечания по коду, но до тех пор, пока PR не переведут в статус «готов к ревью» и не снимут ограничения, GitHub не позволит автоматически принять текстовые правки.
С технической стороны важно только одно: поддержка MTP в llama.cpp даёт прирост производительности. В обсуждении фигурирует конкретный кейс — Qwen3.6 27B, где замерили ускорение в 2,4 раза.
Что это значит для вас
Если вы:
- запускаете большие модели локально через llama.cpp;
- используете или планируете использовать Qwen3.6 27B;
- упираетесь в скорость генерации текста,
поддержка MTP в перспективе заметно ускорит ваши пайплайны. В реальных сценариях это полезно для:
- локальных ассистентов и чат‑ботов, которые должны отвечать быстрее;
- офлайн‑аналитики текста, где нужно прогнать через модель большие объёмы данных;
- прототипирования и отладки промптов, когда вы много раз подряд прогоняете одну и ту же модель.
Ограничения и нюансы:
- Сейчас это ещё не часть стабильного релиза llama.cpp — изменения живут в pull request и зависят от решения мейнтейнеров.
- Для использования придётся либо ждать, пока PR примут, либо собирать llama.cpp из ветки, куда автор выложил эти изменения (сейчас в тексте GitHub‑интерфейса конкретная ветка не указана).
- Поддержка MTP даёт выигрыш в скорости, но не меняет качество ответов модели: Qwen3.6 27B останется тем же Qwen3.6 27B, только работает быстрее.
Если вам важна максимальная стабильность, а не эксперименты с производительностью, разумно подождать официального мёрджа и релиза. Если же вы собираете свои сборки llama.cpp и привыкли жить на острие GitHub‑веток, MTP стоит попробовать сразу после появления доступного кода.
Место на рынке
llama.cpp конкурирует не с конкретными моделями вроде GPT-4o или Claude 3.5, а с другими рантаймами и фреймворками для локального запуска LLM: собственные бэкенды Qwen, различные обёртки вокруг PyTorch/ONNX, а также другие C/C++‑движки.
В этом контексте поддержка MTP и ускорение Qwen3.6 27B в 2,4 раза — важный аргумент в пользу llama.cpp для тех, кто:
- хочет выжать максимум из локального железа без Python‑стека;
- строит продукты, где скорость LLM критична, а облачные API использовать нельзя или дорого.
Прямых численных сравнений с GPT-4o, Claude 3.5 или другими облачными моделями в обсуждении нет. Из доступной информации можно сделать только один конкретный вывод: внутри экосистемы llama.cpp новый режим делает Qwen3.6 27B ощутимо быстрее, что усиливает позиции проекта среди инструментов для локального запуска крупных языковых моделей.