Дата публикации
ai_products

GLM‑4.7: китайский конкурент GPT‑5 прокачал код и агенты на терминале

Что появилось / что изменилось

Z представила GLM‑4.7 — обновление своей флагманской модели, сфокусированное на кодинге, агентах и работе с инструментами.

Ключевые цифры по сравнению с GLM‑4.6:

  • Код и агенты

    • SWE‑bench Verified: 73,8% против 68,0% у GLM‑4.6
    • SWE‑bench Multilingual: 66,7% против 53,8%
    • Terminal Bench Hard: 33,3% против 23,6%
    • Terminal Bench 2.0: 41,0% против 24,5%
  • Математика и сложное рассуждение

    • HLE (Humanity’s Last Exam): 24,8% против 17,2%
    • HLE с инструментами: 42,8% против 30,4%
    • AIME 2025: 95,7% против 93,9%
    • HMMT Feb 2025: 97,1% против 89,2%
    • HMMT Nov 2025: 93,5% против 87,7%
    • IMOAnswerBench: 82,0% против 73,5%
  • Агентные сценарии и веб

    • BrowseComp: 52,0% против 45,1%
    • BrowseComp с менеджментом контекста: 67,5% против 57,5%
    • BrowseComp‑ZH: 66,6% против 49,5%
    • τ²‑Bench: 87,4% против 75,2%
  • Кодинг как бенчмарк

    • LiveCodeBench‑v6: 84,9% против 82,8%

GLM‑4.7 заметно улучшила генерацию интерфейсов: чистые тёмные лендинги, более аккуратные слайды, сложные HTML‑проекты вроде воксельной пагоды или веб‑постеров. Модель лучше соблюдает макет, размеры элементов и визуальный стиль, по сравнению с GLM‑4.6.

Плюс появились режимы продвинутого «мышления» при кодинге: Interleaved Thinking, Preserved Thinking и Turn‑level Thinking для многошаговых задач и длинных сессий с агентами.

Как это работает

GLM‑4.7 делает ставку на поэтапное рассуждение и плотную интеграцию с инструментами.

Interleaved Thinking
Модель сначала размышляет, потом отвечает или вызывает инструмент. Этот внутренний шаг вставлен перед каждым ответом и вызовом тулов. Поэтому она реже совершает грубые логические ошибки в сложных задачах.

Preserved Thinking
В кодинговых сессиях GLM‑4.7 не «забывает» цепочку рассуждений от предыдущих шагов. Она хранит и переиспользует свои прошлые мысли, а не пересобирает их заново на каждом запросе. Это снижает расхождения в логике, когда вы правите большой проект по кускам.

Turn‑level Thinking
Модель держит общий план на уровне целого диалога, а не отдельного сообщения. Это помогает агентам, которые должны пройти десятки шагов: открыть репозиторий, прочитать тесты, поменять код, прогнать пайплайн, задеплоить.

Работа с инструментами и вебом
Рост на τ²‑Bench с 75,2% до 87,4%, а на BrowseComp с 45,1% до 52,0% показывает, что GLM‑4.7 научилась аккуратнее звать внешние сервисы. Она лучше управляет цепочкой тулов, подбирает, когда идти в браузер, и качает из него релевантный контент.

Генерация интерфейсов и артефактов
Модель умеет собирать большие самодостаточные HTML‑файлы: от тёмных лендингов с анимацией тикера и «магнитными» кнопками до WebGL‑сцен с воксельной пагодой или постеров про Париж. По сравнению с GLM‑4.6, код чище, структура понятнее, меньше визуальных артефактов.

Что это значит для вас

Если вы разработчик:

  • Для правок в продакшн‑репозитории GLM‑4.7 стала заметно полезнее. На SWE‑bench Verified она даёт 73,8%, а это уровень, сопоставимый с топовыми моделями.
    В многоязычных проектах (SWE‑bench Multilingual 66,7%) она закрывает задачи не только на английском.
  • Для CLI‑рутины и DevOps подойдёт лучше прежней версии: Terminal Bench 2.0 вырос с 24,5% до 41,0%, Hard‑режим — до 33,3%. Можно поручать ей сложные цепочки команд в терминале, но критическую инфраструктуру без проверки всё равно доверять не стоит.
  • Для соревновательной математики и сложных алгоритмических задач модель полезна: AIME 2025 95,7%, HMMT Feb 2025 97,1%, HMMT Nov 2025 93,5%, IMOAnswerBench 82,0%. Это хороший ассистент для олимпиадной подготовки и задач «на подумать».

Если вы дизайнер интерфейсов или фронтенд‑разработчик:

  • GLM‑4.7 уверенно собирает тёмные лендинги, насыщенные анимацией, с аккуратными типографическими решениями.
    Она лучше подбирает размеры заголовков, интервалы, работу CTA‑кнопок.
  • Для быстрых прототипов лендингов, промо‑страниц, постеров и слайдов модель подходит: код можно сразу открыть в браузере и доработать руками.

Если вы строите агентов:

  • На BrowseComp с менеджментом контекста GLM‑4.7 даёт 67,5% против 57,5% у GLM‑4.6, а на τ²‑Bench — 87,4%.
    Это хороший кандидат для цепочек «прочитать документацию → вызвать API → изменить код → проверить результат».

Ограничения:

  • Для критически важных изменений в репозитории по‑прежнему нужна человеческая ревизия.
  • Модель умеет работать с браузером и инструментами, но неправильно собранный пайплайн всё ещё может привести к неверным действиям агента.
  • Доступ идёт через Z.ai; в России может понадобиться VPN, в зависимости от блокировок конкретного провайдера.

Место на рынке

Z явно сравнивает GLM‑4.7 с флагманами 2025 года: GPT‑5, GPT‑5.1 High, Claude Sonnet 4.5, Gemini 3.0 Pro, DeepSeek‑V3.2 и Kimi K2 Thinking.

По развёрнутому рассуждению:

  • MMLU‑Pro: GLM‑4.7 — 84,3%.
    Для сравнения: Gemini 3.0 Pro — 90,1%, Claude Sonnet 4.5 — 88,2%, GPT‑5 High — 87,5%, GPT‑5.1 High — 87,0%, Kimi K2 Thinking — 84,6%, DeepSeek‑V3.2 — 85,0%.
  • GPQA‑Diamond: GLM‑4.7 — 85,7%.
    Gemini 3.0 Pro здесь лидирует с 91,9%, GPT‑5.1 High — 88,1%, GPT‑5 High — 85,7%, Kimi K2 Thinking — 84,5%, DeepSeek‑V3.2 — 82,4%, Claude Sonnet 4.5 — 83,4%.
  • HLE с инструментами: GLM‑4.7 — 42,8%.
    Gemini 3.0 Pro — 45,8%, Kimi K2 Thinking — 44,9%, GPT‑5.1 High — 42,7%, DeepSeek‑V3.2 — 40,8%, GPT‑5 High — 35,2%, Claude Sonnet 4.5 — 32,0%.

По кодингу и агентам:

  • LiveCodeBench‑v6: GLM‑4.7 — 84,9%.
    GPT‑5 High и GPT‑5.1 High — по 87,0%, Gemini 3.0 Pro — 90,7%, Kimi K2 Thinking — 83,1%, DeepSeek‑V3.2 — 83,3%, Claude Sonnet 4.5 сильно отстаёт — 64,0%.
  • SWE‑bench Verified: GLM‑4.7 — 73,8%.
    Claude Sonnet 4.5 — 77,2%, GPT‑5.1 High — 76,3%, Gemini 3.0 Pro — 76,2%, GPT‑5 High — 74,9%, DeepSeek‑V3.2 — 73,1%, Kimi K2 Thinking — 71,3%.
  • SWE‑bench Multilingual: GLM‑4.7 — 66,7%.
    DeepSeek‑V3.2 — 70,2%, Claude Sonnet 4.5 — 68,0%, Kimi K2 Thinking — 61,1%, GPT‑5 High — 55,3%.
  • Terminal Bench 2.0: GLM‑4.7 — 41,0%.
    GPT‑5.1 High — 47,6%, Gemini 3.0 Pro — 54,2%, DeepSeek‑V3.2 — 46,4%, Claude Sonnet 4.5 — 42,8%, Kimi K2 Thinking — 35,7%, GPT‑5 High — 35,2%.

По агентам и вебу:

  • BrowseComp: GLM‑4.7 — 52,0%.
    GPT‑5 High — 54,9%, GPT‑5.1 High — 50,8%, DeepSeek‑V3.2 — 51,4%, Claude Sonnet 4.5 — 24,1%.
  • BrowseComp‑ZH: GLM‑4.7 — 66,6%.
    GPT‑5 High — 63,0%, Kimi K2 Thinking — 62,3%, DeepSeek‑V3.2 — 65,0%, Claude Sonnet 4.5 — 42,4%.

Если резюмировать: GLM‑4.7 по большинству бенчмарков немного уступает топ‑результатам GPT‑5.1 High и Gemini 3.0 Pro, но держится рядом. В LiveCodeBench‑v6 и SWE‑bench она выглядит как серьёзный рабочий инструмент, особенно для тех, кто уже строит инфраструктуру вокруг Z.ai и делает ставку на китайскую экосистему.


Читайте также

🔗 Источник: https://z.ai/blog/glm-4.7
GLM‑4.7: китайский конкурент GPT‑5 прокачал код и агенты на терминале — VogueTech | VogueTech