GLM‑5: открытый конкурент GPT‑5.2 для сложной инженерии и длинных агентных задач — VogueTech

Что нового

Z.ai выпустила GLM‑5 — крупную открытую LLM, заточенную под сложную системную инженерию, код и долгоживущие агентные сценарии.

Главные цифры и изменения по сравнению с GLM‑4.5/4.7:

Размер модели: масштаб с 355 млрд параметров (32 млрд активных) до 744 млрд параметров с 40 млрд активных.
Обучающие данные: рост с 23 трлн до 28,5 трлн токенов.
Контекст: в исследовательских настройках модель уверенно работает с контекстом до 131 072 токенов, в задачах с инструментами — до 202 752 токенов.
Разреженное внимание: интеграция DeepSeek Sparse Attention (DSA) — экономит вычисления и память при длинном контексте.
Новая RL‑инфраструктура slime: асинхронное обучение с подкреплением, которое ускоряет пост‑тренировку и позволяет делать больше итераций настройки.
Лицензия: веса GLM‑5 доступны на Hugging Face и ModelScope под MIT‑лицензией.

По бенчмаркам GLM‑5 заметно обгоняет GLM‑4.7 и выходит в топ среди открытых моделей в задачах рассуждений, кода и агентов. Несколько ключевых примеров:

Рассуждения и задачи олимпиадного уровня

Humanity's Last Exam (HLE), текстовая часть:
- GLM‑5 (режим Thinking): 30,5
- GLM‑4.7: 24,8
- DeepSeek‑V3.2: 25,1
- Kimi K2.5: 31,5
- Claude Opus 4.5 (Extend Thinking): 28,4
- Gemini 3.0 Pro (High Thinking Level): 37,2
- GPT‑5.2 (xhigh): 35,4
HLE с инструментами:
- GLM‑5: 50,4
- GLM‑4.7: 42,8
- DeepSeek‑V3.2: 40,8
- Kimi K2.5: 51,8
- Claude Opus 4.5*: 43,4
- Gemini 3.0 Pro*: 45,8
- GPT‑5.2*: 45,5
AIME 2026 I (математический экзамен):
- GLM‑5: 92,7
- GLM‑4.7: 92,9
- DeepSeek‑V3.2: 92,7
- Kimi K2.5: 92,5
- Claude Opus 4.5: 93,3
- Gemini 3.0 Pro: 90,6
HMMT Nov 2025:
- GLM‑5: 96,9
- GLM‑4.7: 93,5
- DeepSeek‑V3.2: 90,2
- Kimi K2.5: 91,1
- Claude Opus 4.5: 91,7
- Gemini 3.0 Pro: 93,0
- GPT‑5.2: 97,1
IMOAnswerBench:
- GLM‑5: 82,5
- GLM‑4.7: 82,0
- DeepSeek‑V3.2: 78,3
- Kimi K2.5: 81,8
- Claude Opus 4.5: 78,5
- Gemini 3.0 Pro: 83,3
- GPT‑5.2: 86,3
GPQA‑Diamond:
- GLM‑5: 86,0
- GLM‑4.7: 85,7
- DeepSeek‑V3.2: 82,4
- Kimi K2.5: 87,6
- Claude Opus 4.5: 87,0
- Gemini 3.0 Pro: 91,9
- GPT‑5.2: 92,4

Код и терминальные задачи

SWE‑bench Verified:
- GLM‑5: 77,8
- GLM‑4.7: 73,8
- DeepSeek‑V3.2: 73,1
- Kimi K2.5: 76,8
- Claude Opus 4.5: 80,9
- Gemini 3.0 Pro: 76,2
- GPT‑5.2: 80,0
SWE‑bench Multilingual:
- GLM‑5: 73,3
- GLM‑4.7: 66,7
- DeepSeek‑V3.2: 70,2
- Kimi K2.5: 73,0
- Claude Opus 4.5: 77,5
- Gemini 3.0 Pro: 65,0
- GPT‑5.2: 72,0
Terminal‑Bench 2.0 (Terminus‑2):
- GLM‑5 (Thinking): 56,2 / 60,7†
- GLM‑4.7: 41,0
- DeepSeek‑V3.2: 39,3
- Kimi K2.5: 50,8
- Claude Opus 4.5: 59,3
- Gemini 3.0 Pro: 54,2
- GPT‑5.2: 54,0
Terminal‑Bench 2.0 (Claude Code режим):
- GLM‑5: 56,2 / 61,1†
- GLM‑4.7: 32,8
- DeepSeek‑V3.2: 46,4
- Kimi K2.5: —
- Claude Opus 4.5: 57,9
CyberGym:
- GLM‑5: 43,2
- GLM‑4.7: 23,5
- DeepSeek‑V3.2: 17,3
- Kimi K2.5: 41,3
- Claude Opus 4.5: 50,6
- Gemini 3.0 Pro: 39,9

Агентные задачи и долгий горизонт

BrowseComp (без спец. менеджмента контекста):
- GLM‑5: 62,0
- GLM‑4.7: 52,0
- DeepSeek‑V3.2: 51,4
- Kimi K2.5: 60,6
- Claude Opus 4.5: 37,0
- Gemini 3.0 Pro: 37,8
BrowseComp с управлением контекстом:
- GLM‑5: 75,9
- GLM‑4.7: 67,5
- DeepSeek‑V3.2: 67,6
- Kimi K2.5: 74,9
- Claude Opus 4.5: 67,8
- Gemini 3.0 Pro: 59,2
- GPT‑5.2: 65,8
BrowseComp‑Zh:
- GLM‑5: 72,7
- GLM‑4.7: 66,6
- DeepSeek‑V3.2: 65,0
- Kimi K2.5: 62,3
- Claude Opus 4.5: 62,4
- Gemini 3.0 Pro: 66,8
- GPT‑5.2: 76,1
τ²‑Bench:
- GLM‑5: 89,7
- GLM‑4.7: 87,4
- DeepSeek‑V3.2: 85,3
- Kimi K2.5: 80,2
- Claude Opus 4.5: 91,6
- Gemini 3.0 Pro: 90,7
- GPT‑5.2: 85,5
MCP‑Atlas (public set):
- GLM‑5: 67,8
- GLM‑4.7: 52,0
- DeepSeek‑V3.2: 62,2
- Kimi K2.5: 63,8
- Claude Opus 4.5: 65,2
- Gemini 3.0 Pro: 66,6
- GPT‑5.2: 68,0
Tool‑Decathlon:
- GLM‑5: 39,2
- GLM‑4.7: 23,8
- DeepSeek‑V3.2: 35,2
- Kimi K2.5: 27,8
- Claude Opus 4.5: 43,5
- Gemini 3.0 Pro: 36,4
- GPT‑5.2: 46,3
Vending Bench 2 (симуляция годового бизнеса вендингового автомата):
- GLM‑5: $4 432,12 итоговый баланс
- GLM‑4.7: $2 376,82
- DeepSeek‑V3.2: $1 034,00
- Kimi K2.5: $1 198,46
- Claude Opus 4.5: $4 967,06
- Gemini 3.0 Pro: $5 478,16
- GPT‑5.2: $3 591,33

GLM‑5 также сильнее GLM‑4.7 на внутреннем наборе Z.ai CC‑Bench‑V2 по фронтенду, бэкенду и длинным задачам, и по этим метрикам приближается к Claude Opus 4.5.

Отдельный фокус релиза — офисные сценарии. GLM‑5 умеет по текстовому описанию собирать готовые .docx, .pdf и .xlsx: PRD, планы уроков, экзамены, финансовые отчёты, меню, run‑sheet для мероприятий и т.п. В Z.ai для этого появился Agent‑режим с встроенными навыками работы с Word/Excel/PDF.

Как это работает

Архитектура и разрежённое внимание

GLM‑5 — это крупный трансформер с 744 млрд параметров, из которых 40 млрд активны в каждом проходе. Остальные параметры участвуют разреженно — это снижает вычислительную нагрузку без потери качества.

Ключевой элемент — DeepSeek Sparse Attention (DSA). Это механизм разрежённого внимания, который:

не обрабатывает все пары токенов в последовательности;
выбирает подмножество «важных» позиций для каждого шага внимания;
уменьшает квадратичную сложность по длине контекста.

Результат — длинный контекст (до 131k токенов в тестах) при меньшей стоимости инференса по сравнению с плотным вниманием на том же размере модели.

Масштабирование предобучения

Z.ai увеличила объём предобучающих данных с 23T до 28,5T токенов. Это даёт модели больше примеров:

кода на разных языках;
сложных текстов с многошаговыми рассуждениями;
документов, похожих на реальные офисные файлы.

Масштаб по параметрам и данным даёт выигрыш на олимпиадных задачах, SWE‑bench и агентных бенчмарках.

slime: асинхронное RL для LLM

Классический RLHF для больших моделей упирается в низкую пропускную способность: дорого собирать траектории, долго обучать, мало итераций.

Для GLM‑5 Z.ai разработала slime — асинхронную RL‑инфраструктуру. Что она делает:

параллельно собирает траектории от множества воркеров;
асинхронно обновляет политику, не блокируя генерацию новых данных;
повышает throughput RL‑обучения и даёт больше тонких итераций пост‑тренировки.

На практике это позволяет точнее подстраивать модель под задачи кода, агентов и сложных цепочек действий, а не только под «приятный чат».

Агентный режим и офисные файлы

GLM‑5 интегрирован в Z.ai в двух режимах:

Chat Mode — обычный диалог, быстрые ответы.
Agent Mode — доступ к инструментам: создание и редактирование PDF / Word / Excel, браузинг, другие действия.

В Agent‑режиме GLM‑5 может:

получать промпт и контекст задачи;
планировать последовательность шагов;
вызывать инструменты (например, генератор .docx или .xlsx);
возвращать не только текст, но и готовые файлы.

В примерах Z.ai показывают:

спонсорское предложение для школьной футбольной команды (DOC);
аналитический отчёт по акциям NVIDIA (DOC/XLSX);
обзор отчётности Google.

Документы визуально структурированы: заголовки, выделения, таблицы, подписи к изображениям. GLM‑5 формирует структуру и наполнение, а инструмент‑помощник собирает это в DOCX/PDF.

Инфраструктура и поддерживаемое «железо»

GLM‑5 можно запускать:

через облачный API api.z.ai и платформу BigModel.cn;
локально по открытым весам с помощью vLLM и SGLang.

Z.ai также заявляет поддержку не‑NVIDIA чипов:

Huawei Ascend
Moore Threads
Cambricon
Kunlun Chip
MetaX
Enflame
Hygon

За счёт оптимизации ядер и квантизации GLM‑5 на этих платформах достигает «разумной» пропускной способности — это важно для локальных и региональных развёртываний.

Что это значит для вас

Для разработчиков и ML‑инженеров

GLM‑5 — один из самых сильных открытых вариантов, если вам нужно:

писать и рефакторить код на уровне SWE‑bench Verified 77,8 и SWE‑bench Multilingual 73,3;
автоматизировать сложные DevOps/CLI‑сценарии (Terminal‑Bench 2.0 до 60,7†);
запускать агентов, которые живут в терминале, браузере и инструментах.

Где GLM‑5 особенно полезен:

автоматизация разработки: от фикса багов до генерации тестов и миграций;
поддержка старых и смешанных кодовых баз (в том числе мультиязычные репозитории, судя по SWE‑bench Multilingual);
исследовательские агенты: запуск пайплайнов, эксперименты с инструментальными фреймворками вроде OpenClaw.

С учётом того, что модель крупная (744B) и в облаке она потребляет больше квоты, чем GLM‑4.7, для простых задач (чат‑боты, FAQ, базовый копирайтинг) логично оставить более лёгкие модели.

Для продуктовых и офисных команд

GLM‑5 хорошо ложится в сценарий «ИИ как рабочий инструмент, а не просто чат». Конкретно:

подготовка PRD, отчётов, презентационных документов из текстового брифа;
генерация экзаменов, планов уроков, методичек для образовательных команд;
сборка финансовых отчётов, таблиц бюджетов, расписаний в Excel‑формате;
подготовка коммерческих предложений и спонсорских пакетов.

В Z.ai показывают пример спонсорского предложения для школьной команды, где GLM‑5 формирует:

структуру документа (введение, описание события, тарифы спонсорства);
таблицу с уровнями спонсорства и выгодами;
блоки‑выделения с ключевыми цифрами;
подписи к изображениям.

Если вы работаете в маркетинге, образовании или ивентах, GLM‑5 в Agent‑режиме может заметно ускорить подготовку документов. Но важно:

проверять факты и цифры вручную;
адаптировать тон и визуальный стиль под бренд;
использовать модель как ускоритель, а не «автоматического автора».

Для исследователей и энтузиастов AGI

GLM‑5 интересен как открытая площадка для исследований:

длинный контекст до 131k токенов в reasoning‑бенчмарках;
сильные результаты на Vending Bench 2 (долгосрочное планирование бизнеса);
доступные веса под MIT‑лицензией.

Это даёт возможность:

строить собственные агентные стек‑решения поверх GLM‑5;
экспериментировать с RL и дообучением на базе slime‑подходов;
сравнивать поведение с GPT‑5.2 и Gemini 3.0 Pro на открытых бенчмарках.

Ограничения и где GLM‑5 не лучший выбор

Стоимость и ресурсы: модель тяжёлая. В облаке запросы к GLM‑5 тратят больше квоты, чем к GLM‑4.7. Локальный запуск потребует серьёзного GPU‑кластера или аккуратной квантизации.
Простой чат и креатив: для обычных разговоров, коротких текстов и простого кода будет достаточно более лёгких моделей. GLM‑5 раскрывается именно в сложных задачах и агентах.
Доступность в России: Z.ai, api.z.ai и BigModel.cn могут требовать VPN или обход ограничений. Это зависит от текущей сетевой ситуации и регуляторики, к этому нужно быть готовым.

Если вы стартап с ограниченным бюджетом и без доступа к мощному железу, лучше использовать GLM‑5 через облачные агенты или выбирать меньшие открытые модели, а GLM‑5 привлекать точечно под тяжёлые задачи.

Место на рынке

По цифрам из бенчмарков GLM‑5 — один из сильнейших открытых конкурентов проприетарных моделей топ‑уровня.

Против GPT‑5.2, Claude Opus 4.5, Gemini 3.0 Pro

Разные модели лидируют в разных задачах.

Рассуждения (HLE, HMMT, IMOAnswerBench):
- На HMMT Nov 2025 GLM‑5 (96,9) уступает только GPT‑5.2 (97,1) и опережает Claude Opus 4.5 (91,7) и Gemini 3.0 Pro (93,0).
- На IMOAnswerBench GLM‑5 (82,5) близок к Gemini 3.0 Pro (83,3), выше Claude Opus 4.5 (78,5), но ниже GPT‑5.2 (86,3).
Код (SWE‑bench):
- GLM‑5 (77,8) находится между Gemini 3.0 Pro (76,2) и Claude Opus 4.5 / GPT‑5.2 (80,9 / 80,0).
- В мультиязычном SWE‑bench Multilingual GLM‑5 (73,3) сравним с Kimi K2.5 (73,0) и выше GPT‑5.2 (72,0), но ниже Claude Opus 4.5 (77,5).
Терминальные задачи (Terminal‑Bench 2.0):
- В Terminus‑2 GLM‑5 (до 60,7†) почти на уровне Claude Opus 4.5 (59,3) и выше GPT‑5.2 (54,0) и Gemini 3.0 Pro (54,2).
Агенты и инструменты (Tool‑Decathlon, MCP‑Atlas):
- GLM‑5 (39,2) в Tool‑Decathlon выше Gemini 3.0 Pro (36,4) и DeepSeek‑V3.2 (35,2), но ниже Claude Opus 4.5 (43,5) и GPT‑5.2 (46,3).
- На MCP‑Atlas GLM‑5 (67,8) близок к Gemini 3.0 Pro (66,6) и GPT‑5.2 (68,0), выше Claude Opus 4.5 (65,2).
Долгосрочное планирование (Vending Bench 2):
- GLM‑5 ($4 432,12) идёт вслед за Claude Opus 4.5 ($4 967,06) и Gemini 3.0 Pro ($5 478,16), при этом заметно обгоняет GLM‑4.7 и другие открытые модели.

Суммарно по таблице видно: GLM‑5 часто немного уступает GPT‑5.2 и Gemini 3.0 Pro, иногда догоняет или обходит Claude Opus 4.5, и при этом остаётся открытой моделью с MIT‑лицензией.

Против других открытых моделей

По ряду ключевых метрик GLM‑5 опережает DeepSeek‑V3.2 и Kimi K2.5:

HLE (текст‑only): GLM‑5 (30,5) против 25,1 (DeepSeek‑V3.2) и 31,5 (Kimi K2.5).
Tool‑Decathlon: 39,2 у GLM‑5 против 35,2 (DeepSeek‑V3.2) и 27,8 (Kimi K2.5).
MCP‑Atlas: 67,8 против 62,2 и 63,8.
Terminal‑Bench 2.0 (Terminus‑2): 56,2 / 60,7† против 39,3 (DeepSeek‑V3.2) и 50,8 (Kimi K2.5).

На Vending Bench 2 GLM‑5 показывает лучший результат среди открытых моделей в наборе (кроме закрытых Gemini 3.0 Pro и Claude Opus 4.5):

GLM‑5: $4 432,12
DeepSeek‑V3.2: $1 034,00
Kimi K2.5: $1 198,46

С учётом MIT‑лицензии и веса на Hugging Face/ModelScope GLM‑5 закрывает нишу: «максимально мощная открытая модель для кода и агентов, которую можно встроить в собственный стек и дообучать».

Установка / Как запустить

Через Z.ai и код‑агентов

Z.ai предлагает использовать GLM‑5 через GLM Coding Plan в популярных IDE‑агентах:

Claude Code
OpenCode
Kilo Code
Roo Code
Cline
Droid и другие

Документация: https://docs.z.ai/devpack/overview

Особенности подключения для подписчиков GLM Coding Plan:

Max‑тариф: можно включить GLM‑5 уже сейчас, просто сменив имя модели на "GLM-5" (например, в ~/.claude/settings.json для Claude Code).
Другие тарифы: поддержка GLM‑5 будет добавляться постепенно.
Квота: запросы к GLM‑5 расходуют больше квоты, чем к GLM‑4.7.

Предпочитаете GUI? Z.ai предлагает Z Code — агентную среду разработки, где можно управлять несколькими агентами (в том числе удалённо) и заставлять их работать совместно над задачами.

Старт подписки: https://z.ai/subscribe

OpenClaw и персональные ассистенты

GLM‑5 поддерживает OpenClaw — фреймворк, который превращает модель в персонального ассистента, работающего не только в чате, но и в приложениях и на устройствах.

OpenClaw входит в GLM Coding Plan.
Подробности подключения — в гайдах Z.ai.

Чат с GLM‑5 на Z.ai

GLM‑5 доступен в веб‑интерфейсе Z.ai.

При необходимости можно вручную выбрать модель GLM‑5 в настройках сессии.
Доступны два режима:
- Chat Mode — быстрый диалог.
- Agent Mode — работа с инструментами, создание файлов, сложные задачи.

Локальный запуск

Веса GLM‑5 опубликованы на:

Hugging Face
ModelScope

Для локального инференса поддерживаются:

vLLM
SGLang

Подробные инструкции по развёртыванию и конфигурации есть в официальном репозитории GLM‑5 на GitHub.

Z.ai также заявляет поддержку запуска на чипах:

Huawei Ascend
Moore Threads
Cambricon
Kunlun Chip
MetaX
Enflame
Hygon

За счёт оптимизации и квантизации можно добиться приемлемой скорости даже без NVIDIA‑GPU, но для максимальной производительности по‑прежнему нужны мощные ускорители.

Детали оценки (для тех, кто смотрит на метрики)

Z.ai подробно описывает настройки бенчмарков:

Humanity’s Last Exam и другие reasoning‑задачи:
- max длина генерации: 131 072 токена;
- temperature = 1.0, top_p = 0.95;
- по умолчанию отчёт по текстовому подмножеству; * — результаты на полном наборе;
- GPT‑5.2 (medium) используется как judge‑модель;
- для HLE‑with‑tools контекст до 202 752 токенов.
SWE‑bench / SWE‑bench Multilingual:
- запуск через OpenHands с кастомным промптом;
- temperature = 0.7, top_p = 0.95;
- max_new_tokens = 16 384;
- контекстное окно 200k токенов.
BrowseComp:
- без менеджмента контекста сохраняются детали последних 5 ходов;
- с менеджментом — discard‑all стратегия как у DeepSeek‑V3.2 и Kimi K2.5.
Terminal‑Bench 2.0 (Terminus‑2):
- timeout = 2 часа;
- temperature = 0.7, top_p = 1.0;
- max_new_tokens = 8 192;
- контекстное окно 128k;
- лимиты ресурсов: 16 CPU и 32 ГБ RAM.
Terminal‑Bench 2.0 (Claude Code):
- версия Claude Code 2.1.14 (think mode);
- temperature = 1.0, top_p = 0.95;
- max_new_tokens = 65 536;
- сняты ограничения по wall‑clock времени, но сохранены лимиты CPU и памяти;
- исправлены проблемы окружения Claude Code;
- † — результаты на верифицированном наборе Terminal‑Bench 2.0 (исправлены неоднозначные инструкции);
- результаты усреднены по 5 прогонам.
CyberGym:
- Claude Code 2.1.18 (think mode, без веб‑инструментов);
- temperature = 1.0, top_p = 1.0;
- max_new_tokens = 32 000;
- timeout 250 минут на задачу;
- метрика: single‑run Pass@1 по 1 507 задачам.
MCP‑Atlas:
- все модели в think mode;
- 500 задач публичного поднабора, timeout 10 минут на задачу;
- судья — Gemini 3 Pro.
τ²‑Bench:
- небольшие правки промпта в Retail и Telecom, чтобы избежать досрочного завершения задач пользователем;
- для Airline применены доменные фиксы из system card Claude Opus 4.5.
Vending Bench 2:
- прогоны проводила независимая команда Andon Labs.

Для тех, кто ищет максимально мощную открытую модель для кода, агентов и сложной инженерии, GLM‑5 сейчас один из самых интересных вариантов: сильные метрики, MIT‑лицензия, длинный контекст и уже готовая интеграция в офисные и девелоперские сценарии через Z.ai и OpenClaw.