- Дата публикации
GLM‑4.7: китайский конкурент GPT‑5 прокачал код и агенты на терминале
Что появилось / что изменилось
Z представила GLM‑4.7 — обновление своей флагманской модели, сфокусированное на кодинге, агентах и работе с инструментами.
Ключевые цифры по сравнению с GLM‑4.6:
-
Код и агенты
- SWE‑bench Verified: 73,8% против 68,0% у GLM‑4.6
- SWE‑bench Multilingual: 66,7% против 53,8%
- Terminal Bench Hard: 33,3% против 23,6%
- Terminal Bench 2.0: 41,0% против 24,5%
-
Математика и сложное рассуждение
- HLE (Humanity’s Last Exam): 24,8% против 17,2%
- HLE с инструментами: 42,8% против 30,4%
- AIME 2025: 95,7% против 93,9%
- HMMT Feb 2025: 97,1% против 89,2%
- HMMT Nov 2025: 93,5% против 87,7%
- IMOAnswerBench: 82,0% против 73,5%
-
Агентные сценарии и веб
- BrowseComp: 52,0% против 45,1%
- BrowseComp с менеджментом контекста: 67,5% против 57,5%
- BrowseComp‑ZH: 66,6% против 49,5%
- τ²‑Bench: 87,4% против 75,2%
-
Кодинг как бенчмарк
- LiveCodeBench‑v6: 84,9% против 82,8%
GLM‑4.7 заметно улучшила генерацию интерфейсов: чистые тёмные лендинги, более аккуратные слайды, сложные HTML‑проекты вроде воксельной пагоды или веб‑постеров. Модель лучше соблюдает макет, размеры элементов и визуальный стиль, по сравнению с GLM‑4.6.
Плюс появились режимы продвинутого «мышления» при кодинге: Interleaved Thinking, Preserved Thinking и Turn‑level Thinking для многошаговых задач и длинных сессий с агентами.
Как это работает
GLM‑4.7 делает ставку на поэтапное рассуждение и плотную интеграцию с инструментами.
Interleaved Thinking
Модель сначала размышляет, потом отвечает или вызывает инструмент. Этот внутренний шаг вставлен перед каждым ответом и вызовом тулов. Поэтому она реже совершает грубые логические ошибки в сложных задачах.
Preserved Thinking
В кодинговых сессиях GLM‑4.7 не «забывает» цепочку рассуждений от предыдущих шагов. Она хранит и переиспользует свои прошлые мысли, а не пересобирает их заново на каждом запросе. Это снижает расхождения в логике, когда вы правите большой проект по кускам.
Turn‑level Thinking
Модель держит общий план на уровне целого диалога, а не отдельного сообщения. Это помогает агентам, которые должны пройти десятки шагов: открыть репозиторий, прочитать тесты, поменять код, прогнать пайплайн, задеплоить.
Работа с инструментами и вебом
Рост на τ²‑Bench с 75,2% до 87,4%, а на BrowseComp с 45,1% до 52,0% показывает, что GLM‑4.7 научилась аккуратнее звать внешние сервисы. Она лучше управляет цепочкой тулов, подбирает, когда идти в браузер, и качает из него релевантный контент.
Генерация интерфейсов и артефактов
Модель умеет собирать большие самодостаточные HTML‑файлы: от тёмных лендингов с анимацией тикера и «магнитными» кнопками до WebGL‑сцен с воксельной пагодой или постеров про Париж. По сравнению с GLM‑4.6, код чище, структура понятнее, меньше визуальных артефактов.
Что это значит для вас
Если вы разработчик:
- Для правок в продакшн‑репозитории GLM‑4.7 стала заметно полезнее. На SWE‑bench Verified она даёт 73,8%, а это уровень, сопоставимый с топовыми моделями.
В многоязычных проектах (SWE‑bench Multilingual 66,7%) она закрывает задачи не только на английском. - Для CLI‑рутины и DevOps подойдёт лучше прежней версии: Terminal Bench 2.0 вырос с 24,5% до 41,0%, Hard‑режим — до 33,3%. Можно поручать ей сложные цепочки команд в терминале, но критическую инфраструктуру без проверки всё равно доверять не стоит.
- Для соревновательной математики и сложных алгоритмических задач модель полезна: AIME 2025 95,7%, HMMT Feb 2025 97,1%, HMMT Nov 2025 93,5%, IMOAnswerBench 82,0%. Это хороший ассистент для олимпиадной подготовки и задач «на подумать».
Если вы дизайнер интерфейсов или фронтенд‑разработчик:
- GLM‑4.7 уверенно собирает тёмные лендинги, насыщенные анимацией, с аккуратными типографическими решениями.
Она лучше подбирает размеры заголовков, интервалы, работу CTA‑кнопок. - Для быстрых прототипов лендингов, промо‑страниц, постеров и слайдов модель подходит: код можно сразу открыть в браузере и доработать руками.
Если вы строите агентов:
- На BrowseComp с менеджментом контекста GLM‑4.7 даёт 67,5% против 57,5% у GLM‑4.6, а на τ²‑Bench — 87,4%.
Это хороший кандидат для цепочек «прочитать документацию → вызвать API → изменить код → проверить результат».
Ограничения:
- Для критически важных изменений в репозитории по‑прежнему нужна человеческая ревизия.
- Модель умеет работать с браузером и инструментами, но неправильно собранный пайплайн всё ещё может привести к неверным действиям агента.
- Доступ идёт через Z.ai; в России может понадобиться VPN, в зависимости от блокировок конкретного провайдера.
Место на рынке
Z явно сравнивает GLM‑4.7 с флагманами 2025 года: GPT‑5, GPT‑5.1 High, Claude Sonnet 4.5, Gemini 3.0 Pro, DeepSeek‑V3.2 и Kimi K2 Thinking.
По развёрнутому рассуждению:
- MMLU‑Pro: GLM‑4.7 — 84,3%.
Для сравнения: Gemini 3.0 Pro — 90,1%, Claude Sonnet 4.5 — 88,2%, GPT‑5 High — 87,5%, GPT‑5.1 High — 87,0%, Kimi K2 Thinking — 84,6%, DeepSeek‑V3.2 — 85,0%. - GPQA‑Diamond: GLM‑4.7 — 85,7%.
Gemini 3.0 Pro здесь лидирует с 91,9%, GPT‑5.1 High — 88,1%, GPT‑5 High — 85,7%, Kimi K2 Thinking — 84,5%, DeepSeek‑V3.2 — 82,4%, Claude Sonnet 4.5 — 83,4%. - HLE с инструментами: GLM‑4.7 — 42,8%.
Gemini 3.0 Pro — 45,8%, Kimi K2 Thinking — 44,9%, GPT‑5.1 High — 42,7%, DeepSeek‑V3.2 — 40,8%, GPT‑5 High — 35,2%, Claude Sonnet 4.5 — 32,0%.
По кодингу и агентам:
- LiveCodeBench‑v6: GLM‑4.7 — 84,9%.
GPT‑5 High и GPT‑5.1 High — по 87,0%, Gemini 3.0 Pro — 90,7%, Kimi K2 Thinking — 83,1%, DeepSeek‑V3.2 — 83,3%, Claude Sonnet 4.5 сильно отстаёт — 64,0%. - SWE‑bench Verified: GLM‑4.7 — 73,8%.
Claude Sonnet 4.5 — 77,2%, GPT‑5.1 High — 76,3%, Gemini 3.0 Pro — 76,2%, GPT‑5 High — 74,9%, DeepSeek‑V3.2 — 73,1%, Kimi K2 Thinking — 71,3%. - SWE‑bench Multilingual: GLM‑4.7 — 66,7%.
DeepSeek‑V3.2 — 70,2%, Claude Sonnet 4.5 — 68,0%, Kimi K2 Thinking — 61,1%, GPT‑5 High — 55,3%. - Terminal Bench 2.0: GLM‑4.7 — 41,0%.
GPT‑5.1 High — 47,6%, Gemini 3.0 Pro — 54,2%, DeepSeek‑V3.2 — 46,4%, Claude Sonnet 4.5 — 42,8%, Kimi K2 Thinking — 35,7%, GPT‑5 High — 35,2%.
По агентам и вебу:
- BrowseComp: GLM‑4.7 — 52,0%.
GPT‑5 High — 54,9%, GPT‑5.1 High — 50,8%, DeepSeek‑V3.2 — 51,4%, Claude Sonnet 4.5 — 24,1%. - BrowseComp‑ZH: GLM‑4.7 — 66,6%.
GPT‑5 High — 63,0%, Kimi K2 Thinking — 62,3%, DeepSeek‑V3.2 — 65,0%, Claude Sonnet 4.5 — 42,4%.
Если резюмировать: GLM‑4.7 по большинству бенчмарков немного уступает топ‑результатам GPT‑5.1 High и Gemini 3.0 Pro, но держится рядом. В LiveCodeBench‑v6 и SWE‑bench она выглядит как серьёзный рабочий инструмент, особенно для тех, кто уже строит инфраструктуру вокруг Z.ai и делает ставку на китайскую экосистему.