Дата публикации
ai_products

GLM‑5: открытый конкурент GPT‑5.2 для сложной инженерии и длинных агентных задач

Что нового

Z.ai выпустила GLM‑5 — крупную открытую LLM, заточенную под сложную системную инженерию, код и долгоживущие агентные сценарии.

Главные цифры и изменения по сравнению с GLM‑4.5/4.7:

  • Размер модели: масштаб с 355 млрд параметров (32 млрд активных) до 744 млрд параметров с 40 млрд активных.
  • Обучающие данные: рост с 23 трлн до 28,5 трлн токенов.
  • Контекст: в исследовательских настройках модель уверенно работает с контекстом до 131 072 токенов, в задачах с инструментами — до 202 752 токенов.
  • Разреженное внимание: интеграция DeepSeek Sparse Attention (DSA) — экономит вычисления и память при длинном контексте.
  • Новая RL‑инфраструктура slime: асинхронное обучение с подкреплением, которое ускоряет пост‑тренировку и позволяет делать больше итераций настройки.
  • Лицензия: веса GLM‑5 доступны на Hugging Face и ModelScope под MIT‑лицензией.

По бенчмаркам GLM‑5 заметно обгоняет GLM‑4.7 и выходит в топ среди открытых моделей в задачах рассуждений, кода и агентов. Несколько ключевых примеров:

Рассуждения и задачи олимпиадного уровня

  • Humanity's Last Exam (HLE), текстовая часть:

    • GLM‑5 (режим Thinking): 30,5
    • GLM‑4.7: 24,8
    • DeepSeek‑V3.2: 25,1
    • Kimi K2.5: 31,5
    • Claude Opus 4.5 (Extend Thinking): 28,4
    • Gemini 3.0 Pro (High Thinking Level): 37,2
    • GPT‑5.2 (xhigh): 35,4
  • HLE с инструментами:

    • GLM‑5: 50,4
    • GLM‑4.7: 42,8
    • DeepSeek‑V3.2: 40,8
    • Kimi K2.5: 51,8
    • Claude Opus 4.5*: 43,4
    • Gemini 3.0 Pro*: 45,8
    • GPT‑5.2*: 45,5
  • AIME 2026 I (математический экзамен):

    • GLM‑5: 92,7
    • GLM‑4.7: 92,9
    • DeepSeek‑V3.2: 92,7
    • Kimi K2.5: 92,5
    • Claude Opus 4.5: 93,3
    • Gemini 3.0 Pro: 90,6
  • HMMT Nov 2025:

    • GLM‑5: 96,9
    • GLM‑4.7: 93,5
    • DeepSeek‑V3.2: 90,2
    • Kimi K2.5: 91,1
    • Claude Opus 4.5: 91,7
    • Gemini 3.0 Pro: 93,0
    • GPT‑5.2: 97,1
  • IMOAnswerBench:

    • GLM‑5: 82,5
    • GLM‑4.7: 82,0
    • DeepSeek‑V3.2: 78,3
    • Kimi K2.5: 81,8
    • Claude Opus 4.5: 78,5
    • Gemini 3.0 Pro: 83,3
    • GPT‑5.2: 86,3
  • GPQA‑Diamond:

    • GLM‑5: 86,0
    • GLM‑4.7: 85,7
    • DeepSeek‑V3.2: 82,4
    • Kimi K2.5: 87,6
    • Claude Opus 4.5: 87,0
    • Gemini 3.0 Pro: 91,9
    • GPT‑5.2: 92,4

Код и терминальные задачи

  • SWE‑bench Verified:

    • GLM‑5: 77,8
    • GLM‑4.7: 73,8
    • DeepSeek‑V3.2: 73,1
    • Kimi K2.5: 76,8
    • Claude Opus 4.5: 80,9
    • Gemini 3.0 Pro: 76,2
    • GPT‑5.2: 80,0
  • SWE‑bench Multilingual:

    • GLM‑5: 73,3
    • GLM‑4.7: 66,7
    • DeepSeek‑V3.2: 70,2
    • Kimi K2.5: 73,0
    • Claude Opus 4.5: 77,5
    • Gemini 3.0 Pro: 65,0
    • GPT‑5.2: 72,0
  • Terminal‑Bench 2.0 (Terminus‑2):

    • GLM‑5 (Thinking): 56,2 / 60,7†
    • GLM‑4.7: 41,0
    • DeepSeek‑V3.2: 39,3
    • Kimi K2.5: 50,8
    • Claude Opus 4.5: 59,3
    • Gemini 3.0 Pro: 54,2
    • GPT‑5.2: 54,0
  • Terminal‑Bench 2.0 (Claude Code режим):

    • GLM‑5: 56,2 / 61,1†
    • GLM‑4.7: 32,8
    • DeepSeek‑V3.2: 46,4
    • Kimi K2.5: —
    • Claude Opus 4.5: 57,9
  • CyberGym:

    • GLM‑5: 43,2
    • GLM‑4.7: 23,5
    • DeepSeek‑V3.2: 17,3
    • Kimi K2.5: 41,3
    • Claude Opus 4.5: 50,6
    • Gemini 3.0 Pro: 39,9

Агентные задачи и долгий горизонт

  • BrowseComp (без спец. менеджмента контекста):

    • GLM‑5: 62,0
    • GLM‑4.7: 52,0
    • DeepSeek‑V3.2: 51,4
    • Kimi K2.5: 60,6
    • Claude Opus 4.5: 37,0
    • Gemini 3.0 Pro: 37,8
  • BrowseComp с управлением контекстом:

    • GLM‑5: 75,9
    • GLM‑4.7: 67,5
    • DeepSeek‑V3.2: 67,6
    • Kimi K2.5: 74,9
    • Claude Opus 4.5: 67,8
    • Gemini 3.0 Pro: 59,2
    • GPT‑5.2: 65,8
  • BrowseComp‑Zh:

    • GLM‑5: 72,7
    • GLM‑4.7: 66,6
    • DeepSeek‑V3.2: 65,0
    • Kimi K2.5: 62,3
    • Claude Opus 4.5: 62,4
    • Gemini 3.0 Pro: 66,8
    • GPT‑5.2: 76,1
  • τ²‑Bench:

    • GLM‑5: 89,7
    • GLM‑4.7: 87,4
    • DeepSeek‑V3.2: 85,3
    • Kimi K2.5: 80,2
    • Claude Opus 4.5: 91,6
    • Gemini 3.0 Pro: 90,7
    • GPT‑5.2: 85,5
  • MCP‑Atlas (public set):

    • GLM‑5: 67,8
    • GLM‑4.7: 52,0
    • DeepSeek‑V3.2: 62,2
    • Kimi K2.5: 63,8
    • Claude Opus 4.5: 65,2
    • Gemini 3.0 Pro: 66,6
    • GPT‑5.2: 68,0
  • Tool‑Decathlon:

    • GLM‑5: 39,2
    • GLM‑4.7: 23,8
    • DeepSeek‑V3.2: 35,2
    • Kimi K2.5: 27,8
    • Claude Opus 4.5: 43,5
    • Gemini 3.0 Pro: 36,4
    • GPT‑5.2: 46,3
  • Vending Bench 2 (симуляция годового бизнеса вендингового автомата):

    • GLM‑5: $4 432,12 итоговый баланс
    • GLM‑4.7: $2 376,82
    • DeepSeek‑V3.2: $1 034,00
    • Kimi K2.5: $1 198,46
    • Claude Opus 4.5: $4 967,06
    • Gemini 3.0 Pro: $5 478,16
    • GPT‑5.2: $3 591,33

GLM‑5 также сильнее GLM‑4.7 на внутреннем наборе Z.ai CC‑Bench‑V2 по фронтенду, бэкенду и длинным задачам, и по этим метрикам приближается к Claude Opus 4.5.

Отдельный фокус релиза — офисные сценарии. GLM‑5 умеет по текстовому описанию собирать готовые .docx, .pdf и .xlsx: PRD, планы уроков, экзамены, финансовые отчёты, меню, run‑sheet для мероприятий и т.п. В Z.ai для этого появился Agent‑режим с встроенными навыками работы с Word/Excel/PDF.

Как это работает

Архитектура и разрежённое внимание

GLM‑5 — это крупный трансформер с 744 млрд параметров, из которых 40 млрд активны в каждом проходе. Остальные параметры участвуют разреженно — это снижает вычислительную нагрузку без потери качества.

Ключевой элемент — DeepSeek Sparse Attention (DSA). Это механизм разрежённого внимания, который:

  • не обрабатывает все пары токенов в последовательности;
  • выбирает подмножество «важных» позиций для каждого шага внимания;
  • уменьшает квадратичную сложность по длине контекста.

Результат — длинный контекст (до 131k токенов в тестах) при меньшей стоимости инференса по сравнению с плотным вниманием на том же размере модели.

Масштабирование предобучения

Z.ai увеличила объём предобучающих данных с 23T до 28,5T токенов. Это даёт модели больше примеров:

  • кода на разных языках;
  • сложных текстов с многошаговыми рассуждениями;
  • документов, похожих на реальные офисные файлы.

Масштаб по параметрам и данным даёт выигрыш на олимпиадных задачах, SWE‑bench и агентных бенчмарках.

slime: асинхронное RL для LLM

Классический RLHF для больших моделей упирается в низкую пропускную способность: дорого собирать траектории, долго обучать, мало итераций.

Для GLM‑5 Z.ai разработала slime — асинхронную RL‑инфраструктуру. Что она делает:

  • параллельно собирает траектории от множества воркеров;
  • асинхронно обновляет политику, не блокируя генерацию новых данных;
  • повышает throughput RL‑обучения и даёт больше тонких итераций пост‑тренировки.

На практике это позволяет точнее подстраивать модель под задачи кода, агентов и сложных цепочек действий, а не только под «приятный чат».

Агентный режим и офисные файлы

GLM‑5 интегрирован в Z.ai в двух режимах:

  • Chat Mode — обычный диалог, быстрые ответы.
  • Agent Mode — доступ к инструментам: создание и редактирование PDF / Word / Excel, браузинг, другие действия.

В Agent‑режиме GLM‑5 может:

  • получать промпт и контекст задачи;
  • планировать последовательность шагов;
  • вызывать инструменты (например, генератор .docx или .xlsx);
  • возвращать не только текст, но и готовые файлы.

В примерах Z.ai показывают:

  • спонсорское предложение для школьной футбольной команды (DOC);
  • аналитический отчёт по акциям NVIDIA (DOC/XLSX);
  • обзор отчётности Google.

Документы визуально структурированы: заголовки, выделения, таблицы, подписи к изображениям. GLM‑5 формирует структуру и наполнение, а инструмент‑помощник собирает это в DOCX/PDF.

Инфраструктура и поддерживаемое «железо»

GLM‑5 можно запускать:

  • через облачный API api.z.ai и платформу BigModel.cn;
  • локально по открытым весам с помощью vLLM и SGLang.

Z.ai также заявляет поддержку не‑NVIDIA чипов:

  • Huawei Ascend
  • Moore Threads
  • Cambricon
  • Kunlun Chip
  • MetaX
  • Enflame
  • Hygon

За счёт оптимизации ядер и квантизации GLM‑5 на этих платформах достигает «разумной» пропускной способности — это важно для локальных и региональных развёртываний.

Что это значит для вас

Для разработчиков и ML‑инженеров

GLM‑5 — один из самых сильных открытых вариантов, если вам нужно:

  • писать и рефакторить код на уровне SWE‑bench Verified 77,8 и SWE‑bench Multilingual 73,3;
  • автоматизировать сложные DevOps/CLI‑сценарии (Terminal‑Bench 2.0 до 60,7†);
  • запускать агентов, которые живут в терминале, браузере и инструментах.

Где GLM‑5 особенно полезен:

  • автоматизация разработки: от фикса багов до генерации тестов и миграций;
  • поддержка старых и смешанных кодовых баз (в том числе мультиязычные репозитории, судя по SWE‑bench Multilingual);
  • исследовательские агенты: запуск пайплайнов, эксперименты с инструментальными фреймворками вроде OpenClaw.

С учётом того, что модель крупная (744B) и в облаке она потребляет больше квоты, чем GLM‑4.7, для простых задач (чат‑боты, FAQ, базовый копирайтинг) логично оставить более лёгкие модели.

Для продуктовых и офисных команд

GLM‑5 хорошо ложится в сценарий «ИИ как рабочий инструмент, а не просто чат». Конкретно:

  • подготовка PRD, отчётов, презентационных документов из текстового брифа;
  • генерация экзаменов, планов уроков, методичек для образовательных команд;
  • сборка финансовых отчётов, таблиц бюджетов, расписаний в Excel‑формате;
  • подготовка коммерческих предложений и спонсорских пакетов.

В Z.ai показывают пример спонсорского предложения для школьной команды, где GLM‑5 формирует:

  • структуру документа (введение, описание события, тарифы спонсорства);
  • таблицу с уровнями спонсорства и выгодами;
  • блоки‑выделения с ключевыми цифрами;
  • подписи к изображениям.

Если вы работаете в маркетинге, образовании или ивентах, GLM‑5 в Agent‑режиме может заметно ускорить подготовку документов. Но важно:

  • проверять факты и цифры вручную;
  • адаптировать тон и визуальный стиль под бренд;
  • использовать модель как ускоритель, а не «автоматического автора».

Для исследователей и энтузиастов AGI

GLM‑5 интересен как открытая площадка для исследований:

  • длинный контекст до 131k токенов в reasoning‑бенчмарках;
  • сильные результаты на Vending Bench 2 (долгосрочное планирование бизнеса);
  • доступные веса под MIT‑лицензией.

Это даёт возможность:

  • строить собственные агентные стек‑решения поверх GLM‑5;
  • экспериментировать с RL и дообучением на базе slime‑подходов;
  • сравнивать поведение с GPT‑5.2 и Gemini 3.0 Pro на открытых бенчмарках.

Ограничения и где GLM‑5 не лучший выбор

  • Стоимость и ресурсы: модель тяжёлая. В облаке запросы к GLM‑5 тратят больше квоты, чем к GLM‑4.7. Локальный запуск потребует серьёзного GPU‑кластера или аккуратной квантизации.
  • Простой чат и креатив: для обычных разговоров, коротких текстов и простого кода будет достаточно более лёгких моделей. GLM‑5 раскрывается именно в сложных задачах и агентах.
  • Доступность в России: Z.ai, api.z.ai и BigModel.cn могут требовать VPN или обход ограничений. Это зависит от текущей сетевой ситуации и регуляторики, к этому нужно быть готовым.

Если вы стартап с ограниченным бюджетом и без доступа к мощному железу, лучше использовать GLM‑5 через облачные агенты или выбирать меньшие открытые модели, а GLM‑5 привлекать точечно под тяжёлые задачи.

Место на рынке

По цифрам из бенчмарков GLM‑5 — один из сильнейших открытых конкурентов проприетарных моделей топ‑уровня.

Против GPT‑5.2, Claude Opus 4.5, Gemini 3.0 Pro

Разные модели лидируют в разных задачах.

  • Рассуждения (HLE, HMMT, IMOAnswerBench):

    • На HMMT Nov 2025 GLM‑5 (96,9) уступает только GPT‑5.2 (97,1) и опережает Claude Opus 4.5 (91,7) и Gemini 3.0 Pro (93,0).
    • На IMOAnswerBench GLM‑5 (82,5) близок к Gemini 3.0 Pro (83,3), выше Claude Opus 4.5 (78,5), но ниже GPT‑5.2 (86,3).
  • Код (SWE‑bench):

    • GLM‑5 (77,8) находится между Gemini 3.0 Pro (76,2) и Claude Opus 4.5 / GPT‑5.2 (80,9 / 80,0).
    • В мультиязычном SWE‑bench Multilingual GLM‑5 (73,3) сравним с Kimi K2.5 (73,0) и выше GPT‑5.2 (72,0), но ниже Claude Opus 4.5 (77,5).
  • Терминальные задачи (Terminal‑Bench 2.0):

    • В Terminus‑2 GLM‑5 (до 60,7†) почти на уровне Claude Opus 4.5 (59,3) и выше GPT‑5.2 (54,0) и Gemini 3.0 Pro (54,2).
  • Агенты и инструменты (Tool‑Decathlon, MCP‑Atlas):

    • GLM‑5 (39,2) в Tool‑Decathlon выше Gemini 3.0 Pro (36,4) и DeepSeek‑V3.2 (35,2), но ниже Claude Opus 4.5 (43,5) и GPT‑5.2 (46,3).
    • На MCP‑Atlas GLM‑5 (67,8) близок к Gemini 3.0 Pro (66,6) и GPT‑5.2 (68,0), выше Claude Opus 4.5 (65,2).
  • Долгосрочное планирование (Vending Bench 2):

    • GLM‑5 ($4 432,12) идёт вслед за Claude Opus 4.5 ($4 967,06) и Gemini 3.0 Pro ($5 478,16), при этом заметно обгоняет GLM‑4.7 и другие открытые модели.

Суммарно по таблице видно: GLM‑5 часто немного уступает GPT‑5.2 и Gemini 3.0 Pro, иногда догоняет или обходит Claude Opus 4.5, и при этом остаётся открытой моделью с MIT‑лицензией.

Против других открытых моделей

По ряду ключевых метрик GLM‑5 опережает DeepSeek‑V3.2 и Kimi K2.5:

  • HLE (текст‑only): GLM‑5 (30,5) против 25,1 (DeepSeek‑V3.2) и 31,5 (Kimi K2.5).
  • Tool‑Decathlon: 39,2 у GLM‑5 против 35,2 (DeepSeek‑V3.2) и 27,8 (Kimi K2.5).
  • MCP‑Atlas: 67,8 против 62,2 и 63,8.
  • Terminal‑Bench 2.0 (Terminus‑2): 56,2 / 60,7† против 39,3 (DeepSeek‑V3.2) и 50,8 (Kimi K2.5).

На Vending Bench 2 GLM‑5 показывает лучший результат среди открытых моделей в наборе (кроме закрытых Gemini 3.0 Pro и Claude Opus 4.5):

  • GLM‑5: $4 432,12
  • DeepSeek‑V3.2: $1 034,00
  • Kimi K2.5: $1 198,46

С учётом MIT‑лицензии и веса на Hugging Face/ModelScope GLM‑5 закрывает нишу: «максимально мощная открытая модель для кода и агентов, которую можно встроить в собственный стек и дообучать».

Установка / Как запустить

Через Z.ai и код‑агентов

Z.ai предлагает использовать GLM‑5 через GLM Coding Plan в популярных IDE‑агентах:

  • Claude Code
  • OpenCode
  • Kilo Code
  • Roo Code
  • Cline
  • Droid и другие

Документация: https://docs.z.ai/devpack/overview

Особенности подключения для подписчиков GLM Coding Plan:

  • Max‑тариф: можно включить GLM‑5 уже сейчас, просто сменив имя модели на "GLM-5" (например, в ~/.claude/settings.json для Claude Code).
  • Другие тарифы: поддержка GLM‑5 будет добавляться постепенно.
  • Квота: запросы к GLM‑5 расходуют больше квоты, чем к GLM‑4.7.

Предпочитаете GUI? Z.ai предлагает Z Code — агентную среду разработки, где можно управлять несколькими агентами (в том числе удалённо) и заставлять их работать совместно над задачами.

Старт подписки: https://z.ai/subscribe

OpenClaw и персональные ассистенты

GLM‑5 поддерживает OpenClaw — фреймворк, который превращает модель в персонального ассистента, работающего не только в чате, но и в приложениях и на устройствах.

  • OpenClaw входит в GLM Coding Plan.
  • Подробности подключения — в гайдах Z.ai.

Чат с GLM‑5 на Z.ai

GLM‑5 доступен в веб‑интерфейсе Z.ai.

  • При необходимости можно вручную выбрать модель GLM‑5 в настройках сессии.
  • Доступны два режима:
    • Chat Mode — быстрый диалог.
    • Agent Mode — работа с инструментами, создание файлов, сложные задачи.

Локальный запуск

Веса GLM‑5 опубликованы на:

  • Hugging Face
  • ModelScope

Для локального инференса поддерживаются:

  • vLLM
  • SGLang

Подробные инструкции по развёртыванию и конфигурации есть в официальном репозитории GLM‑5 на GitHub.

Z.ai также заявляет поддержку запуска на чипах:

  • Huawei Ascend
  • Moore Threads
  • Cambricon
  • Kunlun Chip
  • MetaX
  • Enflame
  • Hygon

За счёт оптимизации и квантизации можно добиться приемлемой скорости даже без NVIDIA‑GPU, но для максимальной производительности по‑прежнему нужны мощные ускорители.

Детали оценки (для тех, кто смотрит на метрики)

Z.ai подробно описывает настройки бенчмарков:

  • Humanity’s Last Exam и другие reasoning‑задачи:

    • max длина генерации: 131 072 токена;
    • temperature = 1.0, top_p = 0.95;
    • по умолчанию отчёт по текстовому подмножеству; * — результаты на полном наборе;
    • GPT‑5.2 (medium) используется как judge‑модель;
    • для HLE‑with‑tools контекст до 202 752 токенов.
  • SWE‑bench / SWE‑bench Multilingual:

    • запуск через OpenHands с кастомным промптом;
    • temperature = 0.7, top_p = 0.95;
    • max_new_tokens = 16 384;
    • контекстное окно 200k токенов.
  • BrowseComp:

    • без менеджмента контекста сохраняются детали последних 5 ходов;
    • с менеджментом — discard‑all стратегия как у DeepSeek‑V3.2 и Kimi K2.5.
  • Terminal‑Bench 2.0 (Terminus‑2):

    • timeout = 2 часа;
    • temperature = 0.7, top_p = 1.0;
    • max_new_tokens = 8 192;
    • контекстное окно 128k;
    • лимиты ресурсов: 16 CPU и 32 ГБ RAM.
  • Terminal‑Bench 2.0 (Claude Code):

    • версия Claude Code 2.1.14 (think mode);
    • temperature = 1.0, top_p = 0.95;
    • max_new_tokens = 65 536;
    • сняты ограничения по wall‑clock времени, но сохранены лимиты CPU и памяти;
    • исправлены проблемы окружения Claude Code;
    • † — результаты на верифицированном наборе Terminal‑Bench 2.0 (исправлены неоднозначные инструкции);
    • результаты усреднены по 5 прогонам.
  • CyberGym:

    • Claude Code 2.1.18 (think mode, без веб‑инструментов);
    • temperature = 1.0, top_p = 1.0;
    • max_new_tokens = 32 000;
    • timeout 250 минут на задачу;
    • метрика: single‑run Pass@1 по 1 507 задачам.
  • MCP‑Atlas:

    • все модели в think mode;
    • 500 задач публичного поднабора, timeout 10 минут на задачу;
    • судья — Gemini 3 Pro.
  • τ²‑Bench:

    • небольшие правки промпта в Retail и Telecom, чтобы избежать досрочного завершения задач пользователем;
    • для Airline применены доменные фиксы из system card Claude Opus 4.5.
  • Vending Bench 2:

    • прогоны проводила независимая команда Andon Labs.

Для тех, кто ищет максимально мощную открытую модель для кода, агентов и сложной инженерии, GLM‑5 сейчас один из самых интересных вариантов: сильные метрики, MIT‑лицензия, длинный контекст и уже готовая интеграция в офисные и девелоперские сценарии через Z.ai и OpenClaw.


Читайте также

🔗 Источник: https://z.ai/blog/glm-5