- Дата публикации
GLM‑5: открытый конкурент GPT‑5.2 для сложной инженерии и длинных агентных задач
Что нового
Z.ai выпустила GLM‑5 — крупную открытую LLM, заточенную под сложную системную инженерию, код и долгоживущие агентные сценарии.
Главные цифры и изменения по сравнению с GLM‑4.5/4.7:
- Размер модели: масштаб с 355 млрд параметров (32 млрд активных) до 744 млрд параметров с 40 млрд активных.
- Обучающие данные: рост с 23 трлн до 28,5 трлн токенов.
- Контекст: в исследовательских настройках модель уверенно работает с контекстом до 131 072 токенов, в задачах с инструментами — до 202 752 токенов.
- Разреженное внимание: интеграция DeepSeek Sparse Attention (DSA) — экономит вычисления и память при длинном контексте.
- Новая RL‑инфраструктура slime: асинхронное обучение с подкреплением, которое ускоряет пост‑тренировку и позволяет делать больше итераций настройки.
- Лицензия: веса GLM‑5 доступны на Hugging Face и ModelScope под MIT‑лицензией.
По бенчмаркам GLM‑5 заметно обгоняет GLM‑4.7 и выходит в топ среди открытых моделей в задачах рассуждений, кода и агентов. Несколько ключевых примеров:
Рассуждения и задачи олимпиадного уровня
-
Humanity's Last Exam (HLE), текстовая часть:
- GLM‑5 (режим Thinking): 30,5
- GLM‑4.7: 24,8
- DeepSeek‑V3.2: 25,1
- Kimi K2.5: 31,5
- Claude Opus 4.5 (Extend Thinking): 28,4
- Gemini 3.0 Pro (High Thinking Level): 37,2
- GPT‑5.2 (xhigh): 35,4
-
HLE с инструментами:
- GLM‑5: 50,4
- GLM‑4.7: 42,8
- DeepSeek‑V3.2: 40,8
- Kimi K2.5: 51,8
- Claude Opus 4.5*: 43,4
- Gemini 3.0 Pro*: 45,8
- GPT‑5.2*: 45,5
-
AIME 2026 I (математический экзамен):
- GLM‑5: 92,7
- GLM‑4.7: 92,9
- DeepSeek‑V3.2: 92,7
- Kimi K2.5: 92,5
- Claude Opus 4.5: 93,3
- Gemini 3.0 Pro: 90,6
-
HMMT Nov 2025:
- GLM‑5: 96,9
- GLM‑4.7: 93,5
- DeepSeek‑V3.2: 90,2
- Kimi K2.5: 91,1
- Claude Opus 4.5: 91,7
- Gemini 3.0 Pro: 93,0
- GPT‑5.2: 97,1
-
IMOAnswerBench:
- GLM‑5: 82,5
- GLM‑4.7: 82,0
- DeepSeek‑V3.2: 78,3
- Kimi K2.5: 81,8
- Claude Opus 4.5: 78,5
- Gemini 3.0 Pro: 83,3
- GPT‑5.2: 86,3
-
GPQA‑Diamond:
- GLM‑5: 86,0
- GLM‑4.7: 85,7
- DeepSeek‑V3.2: 82,4
- Kimi K2.5: 87,6
- Claude Opus 4.5: 87,0
- Gemini 3.0 Pro: 91,9
- GPT‑5.2: 92,4
Код и терминальные задачи
-
SWE‑bench Verified:
- GLM‑5: 77,8
- GLM‑4.7: 73,8
- DeepSeek‑V3.2: 73,1
- Kimi K2.5: 76,8
- Claude Opus 4.5: 80,9
- Gemini 3.0 Pro: 76,2
- GPT‑5.2: 80,0
-
SWE‑bench Multilingual:
- GLM‑5: 73,3
- GLM‑4.7: 66,7
- DeepSeek‑V3.2: 70,2
- Kimi K2.5: 73,0
- Claude Opus 4.5: 77,5
- Gemini 3.0 Pro: 65,0
- GPT‑5.2: 72,0
-
Terminal‑Bench 2.0 (Terminus‑2):
- GLM‑5 (Thinking): 56,2 / 60,7†
- GLM‑4.7: 41,0
- DeepSeek‑V3.2: 39,3
- Kimi K2.5: 50,8
- Claude Opus 4.5: 59,3
- Gemini 3.0 Pro: 54,2
- GPT‑5.2: 54,0
-
Terminal‑Bench 2.0 (Claude Code режим):
- GLM‑5: 56,2 / 61,1†
- GLM‑4.7: 32,8
- DeepSeek‑V3.2: 46,4
- Kimi K2.5: —
- Claude Opus 4.5: 57,9
-
CyberGym:
- GLM‑5: 43,2
- GLM‑4.7: 23,5
- DeepSeek‑V3.2: 17,3
- Kimi K2.5: 41,3
- Claude Opus 4.5: 50,6
- Gemini 3.0 Pro: 39,9
Агентные задачи и долгий горизонт
-
BrowseComp (без спец. менеджмента контекста):
- GLM‑5: 62,0
- GLM‑4.7: 52,0
- DeepSeek‑V3.2: 51,4
- Kimi K2.5: 60,6
- Claude Opus 4.5: 37,0
- Gemini 3.0 Pro: 37,8
-
BrowseComp с управлением контекстом:
- GLM‑5: 75,9
- GLM‑4.7: 67,5
- DeepSeek‑V3.2: 67,6
- Kimi K2.5: 74,9
- Claude Opus 4.5: 67,8
- Gemini 3.0 Pro: 59,2
- GPT‑5.2: 65,8
-
BrowseComp‑Zh:
- GLM‑5: 72,7
- GLM‑4.7: 66,6
- DeepSeek‑V3.2: 65,0
- Kimi K2.5: 62,3
- Claude Opus 4.5: 62,4
- Gemini 3.0 Pro: 66,8
- GPT‑5.2: 76,1
-
τ²‑Bench:
- GLM‑5: 89,7
- GLM‑4.7: 87,4
- DeepSeek‑V3.2: 85,3
- Kimi K2.5: 80,2
- Claude Opus 4.5: 91,6
- Gemini 3.0 Pro: 90,7
- GPT‑5.2: 85,5
-
MCP‑Atlas (public set):
- GLM‑5: 67,8
- GLM‑4.7: 52,0
- DeepSeek‑V3.2: 62,2
- Kimi K2.5: 63,8
- Claude Opus 4.5: 65,2
- Gemini 3.0 Pro: 66,6
- GPT‑5.2: 68,0
-
Tool‑Decathlon:
- GLM‑5: 39,2
- GLM‑4.7: 23,8
- DeepSeek‑V3.2: 35,2
- Kimi K2.5: 27,8
- Claude Opus 4.5: 43,5
- Gemini 3.0 Pro: 36,4
- GPT‑5.2: 46,3
-
Vending Bench 2 (симуляция годового бизнеса вендингового автомата):
- GLM‑5: $4 432,12 итоговый баланс
- GLM‑4.7: $2 376,82
- DeepSeek‑V3.2: $1 034,00
- Kimi K2.5: $1 198,46
- Claude Opus 4.5: $4 967,06
- Gemini 3.0 Pro: $5 478,16
- GPT‑5.2: $3 591,33
GLM‑5 также сильнее GLM‑4.7 на внутреннем наборе Z.ai CC‑Bench‑V2 по фронтенду, бэкенду и длинным задачам, и по этим метрикам приближается к Claude Opus 4.5.
Отдельный фокус релиза — офисные сценарии. GLM‑5 умеет по текстовому описанию собирать готовые .docx, .pdf и .xlsx: PRD, планы уроков, экзамены, финансовые отчёты, меню, run‑sheet для мероприятий и т.п. В Z.ai для этого появился Agent‑режим с встроенными навыками работы с Word/Excel/PDF.
Как это работает
Архитектура и разрежённое внимание
GLM‑5 — это крупный трансформер с 744 млрд параметров, из которых 40 млрд активны в каждом проходе. Остальные параметры участвуют разреженно — это снижает вычислительную нагрузку без потери качества.
Ключевой элемент — DeepSeek Sparse Attention (DSA). Это механизм разрежённого внимания, который:
- не обрабатывает все пары токенов в последовательности;
- выбирает подмножество «важных» позиций для каждого шага внимания;
- уменьшает квадратичную сложность по длине контекста.
Результат — длинный контекст (до 131k токенов в тестах) при меньшей стоимости инференса по сравнению с плотным вниманием на том же размере модели.
Масштабирование предобучения
Z.ai увеличила объём предобучающих данных с 23T до 28,5T токенов. Это даёт модели больше примеров:
- кода на разных языках;
- сложных текстов с многошаговыми рассуждениями;
- документов, похожих на реальные офисные файлы.
Масштаб по параметрам и данным даёт выигрыш на олимпиадных задачах, SWE‑bench и агентных бенчмарках.
slime: асинхронное RL для LLM
Классический RLHF для больших моделей упирается в низкую пропускную способность: дорого собирать траектории, долго обучать, мало итераций.
Для GLM‑5 Z.ai разработала slime — асинхронную RL‑инфраструктуру. Что она делает:
- параллельно собирает траектории от множества воркеров;
- асинхронно обновляет политику, не блокируя генерацию новых данных;
- повышает throughput RL‑обучения и даёт больше тонких итераций пост‑тренировки.
На практике это позволяет точнее подстраивать модель под задачи кода, агентов и сложных цепочек действий, а не только под «приятный чат».
Агентный режим и офисные файлы
GLM‑5 интегрирован в Z.ai в двух режимах:
- Chat Mode — обычный диалог, быстрые ответы.
- Agent Mode — доступ к инструментам: создание и редактирование PDF / Word / Excel, браузинг, другие действия.
В Agent‑режиме GLM‑5 может:
- получать промпт и контекст задачи;
- планировать последовательность шагов;
- вызывать инструменты (например, генератор .docx или .xlsx);
- возвращать не только текст, но и готовые файлы.
В примерах Z.ai показывают:
- спонсорское предложение для школьной футбольной команды (DOC);
- аналитический отчёт по акциям NVIDIA (DOC/XLSX);
- обзор отчётности Google.
Документы визуально структурированы: заголовки, выделения, таблицы, подписи к изображениям. GLM‑5 формирует структуру и наполнение, а инструмент‑помощник собирает это в DOCX/PDF.
Инфраструктура и поддерживаемое «железо»
GLM‑5 можно запускать:
- через облачный API api.z.ai и платформу BigModel.cn;
- локально по открытым весам с помощью vLLM и SGLang.
Z.ai также заявляет поддержку не‑NVIDIA чипов:
- Huawei Ascend
- Moore Threads
- Cambricon
- Kunlun Chip
- MetaX
- Enflame
- Hygon
За счёт оптимизации ядер и квантизации GLM‑5 на этих платформах достигает «разумной» пропускной способности — это важно для локальных и региональных развёртываний.
Что это значит для вас
Для разработчиков и ML‑инженеров
GLM‑5 — один из самых сильных открытых вариантов, если вам нужно:
- писать и рефакторить код на уровне SWE‑bench Verified 77,8 и SWE‑bench Multilingual 73,3;
- автоматизировать сложные DevOps/CLI‑сценарии (Terminal‑Bench 2.0 до 60,7†);
- запускать агентов, которые живут в терминале, браузере и инструментах.
Где GLM‑5 особенно полезен:
- автоматизация разработки: от фикса багов до генерации тестов и миграций;
- поддержка старых и смешанных кодовых баз (в том числе мультиязычные репозитории, судя по SWE‑bench Multilingual);
- исследовательские агенты: запуск пайплайнов, эксперименты с инструментальными фреймворками вроде OpenClaw.
С учётом того, что модель крупная (744B) и в облаке она потребляет больше квоты, чем GLM‑4.7, для простых задач (чат‑боты, FAQ, базовый копирайтинг) логично оставить более лёгкие модели.
Для продуктовых и офисных команд
GLM‑5 хорошо ложится в сценарий «ИИ как рабочий инструмент, а не просто чат». Конкретно:
- подготовка PRD, отчётов, презентационных документов из текстового брифа;
- генерация экзаменов, планов уроков, методичек для образовательных команд;
- сборка финансовых отчётов, таблиц бюджетов, расписаний в Excel‑формате;
- подготовка коммерческих предложений и спонсорских пакетов.
В Z.ai показывают пример спонсорского предложения для школьной команды, где GLM‑5 формирует:
- структуру документа (введение, описание события, тарифы спонсорства);
- таблицу с уровнями спонсорства и выгодами;
- блоки‑выделения с ключевыми цифрами;
- подписи к изображениям.
Если вы работаете в маркетинге, образовании или ивентах, GLM‑5 в Agent‑режиме может заметно ускорить подготовку документов. Но важно:
- проверять факты и цифры вручную;
- адаптировать тон и визуальный стиль под бренд;
- использовать модель как ускоритель, а не «автоматического автора».
Для исследователей и энтузиастов AGI
GLM‑5 интересен как открытая площадка для исследований:
- длинный контекст до 131k токенов в reasoning‑бенчмарках;
- сильные результаты на Vending Bench 2 (долгосрочное планирование бизнеса);
- доступные веса под MIT‑лицензией.
Это даёт возможность:
- строить собственные агентные стек‑решения поверх GLM‑5;
- экспериментировать с RL и дообучением на базе slime‑подходов;
- сравнивать поведение с GPT‑5.2 и Gemini 3.0 Pro на открытых бенчмарках.
Ограничения и где GLM‑5 не лучший выбор
- Стоимость и ресурсы: модель тяжёлая. В облаке запросы к GLM‑5 тратят больше квоты, чем к GLM‑4.7. Локальный запуск потребует серьёзного GPU‑кластера или аккуратной квантизации.
- Простой чат и креатив: для обычных разговоров, коротких текстов и простого кода будет достаточно более лёгких моделей. GLM‑5 раскрывается именно в сложных задачах и агентах.
- Доступность в России: Z.ai, api.z.ai и BigModel.cn могут требовать VPN или обход ограничений. Это зависит от текущей сетевой ситуации и регуляторики, к этому нужно быть готовым.
Если вы стартап с ограниченным бюджетом и без доступа к мощному железу, лучше использовать GLM‑5 через облачные агенты или выбирать меньшие открытые модели, а GLM‑5 привлекать точечно под тяжёлые задачи.
Место на рынке
По цифрам из бенчмарков GLM‑5 — один из сильнейших открытых конкурентов проприетарных моделей топ‑уровня.
Против GPT‑5.2, Claude Opus 4.5, Gemini 3.0 Pro
Разные модели лидируют в разных задачах.
-
Рассуждения (HLE, HMMT, IMOAnswerBench):
- На HMMT Nov 2025 GLM‑5 (96,9) уступает только GPT‑5.2 (97,1) и опережает Claude Opus 4.5 (91,7) и Gemini 3.0 Pro (93,0).
- На IMOAnswerBench GLM‑5 (82,5) близок к Gemini 3.0 Pro (83,3), выше Claude Opus 4.5 (78,5), но ниже GPT‑5.2 (86,3).
-
Код (SWE‑bench):
- GLM‑5 (77,8) находится между Gemini 3.0 Pro (76,2) и Claude Opus 4.5 / GPT‑5.2 (80,9 / 80,0).
- В мультиязычном SWE‑bench Multilingual GLM‑5 (73,3) сравним с Kimi K2.5 (73,0) и выше GPT‑5.2 (72,0), но ниже Claude Opus 4.5 (77,5).
-
Терминальные задачи (Terminal‑Bench 2.0):
- В Terminus‑2 GLM‑5 (до 60,7†) почти на уровне Claude Opus 4.5 (59,3) и выше GPT‑5.2 (54,0) и Gemini 3.0 Pro (54,2).
-
Агенты и инструменты (Tool‑Decathlon, MCP‑Atlas):
- GLM‑5 (39,2) в Tool‑Decathlon выше Gemini 3.0 Pro (36,4) и DeepSeek‑V3.2 (35,2), но ниже Claude Opus 4.5 (43,5) и GPT‑5.2 (46,3).
- На MCP‑Atlas GLM‑5 (67,8) близок к Gemini 3.0 Pro (66,6) и GPT‑5.2 (68,0), выше Claude Opus 4.5 (65,2).
-
Долгосрочное планирование (Vending Bench 2):
- GLM‑5 ($4 432,12) идёт вслед за Claude Opus 4.5 ($4 967,06) и Gemini 3.0 Pro ($5 478,16), при этом заметно обгоняет GLM‑4.7 и другие открытые модели.
Суммарно по таблице видно: GLM‑5 часто немного уступает GPT‑5.2 и Gemini 3.0 Pro, иногда догоняет или обходит Claude Opus 4.5, и при этом остаётся открытой моделью с MIT‑лицензией.
Против других открытых моделей
По ряду ключевых метрик GLM‑5 опережает DeepSeek‑V3.2 и Kimi K2.5:
- HLE (текст‑only): GLM‑5 (30,5) против 25,1 (DeepSeek‑V3.2) и 31,5 (Kimi K2.5).
- Tool‑Decathlon: 39,2 у GLM‑5 против 35,2 (DeepSeek‑V3.2) и 27,8 (Kimi K2.5).
- MCP‑Atlas: 67,8 против 62,2 и 63,8.
- Terminal‑Bench 2.0 (Terminus‑2): 56,2 / 60,7† против 39,3 (DeepSeek‑V3.2) и 50,8 (Kimi K2.5).
На Vending Bench 2 GLM‑5 показывает лучший результат среди открытых моделей в наборе (кроме закрытых Gemini 3.0 Pro и Claude Opus 4.5):
- GLM‑5: $4 432,12
- DeepSeek‑V3.2: $1 034,00
- Kimi K2.5: $1 198,46
С учётом MIT‑лицензии и веса на Hugging Face/ModelScope GLM‑5 закрывает нишу: «максимально мощная открытая модель для кода и агентов, которую можно встроить в собственный стек и дообучать».
Установка / Как запустить
Через Z.ai и код‑агентов
Z.ai предлагает использовать GLM‑5 через GLM Coding Plan в популярных IDE‑агентах:
- Claude Code
- OpenCode
- Kilo Code
- Roo Code
- Cline
- Droid и другие
Документация: https://docs.z.ai/devpack/overview
Особенности подключения для подписчиков GLM Coding Plan:
- Max‑тариф: можно включить GLM‑5 уже сейчас, просто сменив имя модели на
"GLM-5"(например, в~/.claude/settings.jsonдля Claude Code). - Другие тарифы: поддержка GLM‑5 будет добавляться постепенно.
- Квота: запросы к GLM‑5 расходуют больше квоты, чем к GLM‑4.7.
Предпочитаете GUI? Z.ai предлагает Z Code — агентную среду разработки, где можно управлять несколькими агентами (в том числе удалённо) и заставлять их работать совместно над задачами.
Старт подписки: https://z.ai/subscribe
OpenClaw и персональные ассистенты
GLM‑5 поддерживает OpenClaw — фреймворк, который превращает модель в персонального ассистента, работающего не только в чате, но и в приложениях и на устройствах.
- OpenClaw входит в GLM Coding Plan.
- Подробности подключения — в гайдах Z.ai.
Чат с GLM‑5 на Z.ai
GLM‑5 доступен в веб‑интерфейсе Z.ai.
- При необходимости можно вручную выбрать модель GLM‑5 в настройках сессии.
- Доступны два режима:
- Chat Mode — быстрый диалог.
- Agent Mode — работа с инструментами, создание файлов, сложные задачи.
Локальный запуск
Веса GLM‑5 опубликованы на:
- Hugging Face
- ModelScope
Для локального инференса поддерживаются:
- vLLM
- SGLang
Подробные инструкции по развёртыванию и конфигурации есть в официальном репозитории GLM‑5 на GitHub.
Z.ai также заявляет поддержку запуска на чипах:
- Huawei Ascend
- Moore Threads
- Cambricon
- Kunlun Chip
- MetaX
- Enflame
- Hygon
За счёт оптимизации и квантизации можно добиться приемлемой скорости даже без NVIDIA‑GPU, но для максимальной производительности по‑прежнему нужны мощные ускорители.
Детали оценки (для тех, кто смотрит на метрики)
Z.ai подробно описывает настройки бенчмарков:
-
Humanity’s Last Exam и другие reasoning‑задачи:
- max длина генерации: 131 072 токена;
- temperature = 1.0, top_p = 0.95;
- по умолчанию отчёт по текстовому подмножеству; * — результаты на полном наборе;
- GPT‑5.2 (medium) используется как judge‑модель;
- для HLE‑with‑tools контекст до 202 752 токенов.
-
SWE‑bench / SWE‑bench Multilingual:
- запуск через OpenHands с кастомным промптом;
- temperature = 0.7, top_p = 0.95;
- max_new_tokens = 16 384;
- контекстное окно 200k токенов.
-
BrowseComp:
- без менеджмента контекста сохраняются детали последних 5 ходов;
- с менеджментом — discard‑all стратегия как у DeepSeek‑V3.2 и Kimi K2.5.
-
Terminal‑Bench 2.0 (Terminus‑2):
- timeout = 2 часа;
- temperature = 0.7, top_p = 1.0;
- max_new_tokens = 8 192;
- контекстное окно 128k;
- лимиты ресурсов: 16 CPU и 32 ГБ RAM.
-
Terminal‑Bench 2.0 (Claude Code):
- версия Claude Code 2.1.14 (think mode);
- temperature = 1.0, top_p = 0.95;
- max_new_tokens = 65 536;
- сняты ограничения по wall‑clock времени, но сохранены лимиты CPU и памяти;
- исправлены проблемы окружения Claude Code;
- † — результаты на верифицированном наборе Terminal‑Bench 2.0 (исправлены неоднозначные инструкции);
- результаты усреднены по 5 прогонам.
-
CyberGym:
- Claude Code 2.1.18 (think mode, без веб‑инструментов);
- temperature = 1.0, top_p = 1.0;
- max_new_tokens = 32 000;
- timeout 250 минут на задачу;
- метрика: single‑run Pass@1 по 1 507 задачам.
-
MCP‑Atlas:
- все модели в think mode;
- 500 задач публичного поднабора, timeout 10 минут на задачу;
- судья — Gemini 3 Pro.
-
τ²‑Bench:
- небольшие правки промпта в Retail и Telecom, чтобы избежать досрочного завершения задач пользователем;
- для Airline применены доменные фиксы из system card Claude Opus 4.5.
-
Vending Bench 2:
- прогоны проводила независимая команда Andon Labs.
Для тех, кто ищет максимально мощную открытую модель для кода, агентов и сложной инженерии, GLM‑5 сейчас один из самых интересных вариантов: сильные метрики, MIT‑лицензия, длинный контекст и уже готовая интеграция в офисные и девелоперские сценарии через Z.ai и OpenClaw.