Дата публикации
ai_products

Открытые ИИ‑модели догнали флагманы: GLM-5 и MiniMax M2.7 в агентных задачах

Что появилось / что изменилось

LangChain прогнал открытые языковые модели через свои Deep Agents и сравнил их с топовыми закрытыми системами. В фокусе — агентные сценарии: работа с файлами, вызов инструментов и точное следование инструкциям.

Две открытые модели — GLM-5 (через Baseten) и MiniMax M2.7 (через OpenRouter) — показали качество, сопоставимое с закрытыми флагманами вроде Claude Opus 4.6, Claude Sonnet 4.6 и GPT-5.4 на этих задачах.

Главное — цифры по цене за миллион токенов:

  • Claude Opus 4.6: вход $5.00, выход $25.00
  • Claude Sonnet 4.6: вход $3.00, выход $15.00
  • GPT-5.4: вход $2.50, выход $15.00
  • GLM-5 (Baseten): вход $0.95, выход $3.15
  • MiniMax M2.7 (OpenRouter): вход $0.30, выход $1.20

Пример нагрузки: приложение генерирует 10 млн токенов в день.
Claude Opus 4.6 обойдётся примерно в $250 в день, MiniMax M2.7 — примерно в $12 в день. Разница по году — около $87 000.

По задержкам картина тоже интересная. На OpenRouter:

  • GLM-5 на Baseten: средняя задержка 0,65 секунды, скорость 70 токенов/сек
  • Claude Opus 4.6: 2,56 секунды, 34 токена/сек

Для продуктов, где важен отклик в реальном времени, это ощутимый разрыв.

Как это работает

LangChain тестирует модели в своём окружении Deep Agents — это каркас для агентных систем, где ИИ не просто отвечает текстом, а:

  • вызывает внешние инструменты (API, функции);
  • читает и изменяет файлы;
  • использует память и контекст;
  • общается с пользователем по шагам.

Для открытых моделей запустили семь типов проверок:

  • операции с файлами;
  • использование инструментов;
  • поиск и извлечение информации;
  • диалог;
  • работа с памятью;
  • суммаризация;
  • «юнит‑тесты» на базовые способности.

Каждый тест описывает, что именно считается успехом (жёсткие проверки) и как оценить эффективность (мягкие метрики). LangChain смотрит на четыре показателя:

  • Correctness — доля успешно решённых тестов. Например, 0,68 значит, что модель правильно справилась с 68% кейсов.
  • Solve rate — точность плюс скорость: ожидаемое число шагов делят на реальное время выполнения. Проваленные тесты дают ноль. Чем выше среднее значение, тем лучше модель решает задачи и тем быстрее она это делает.
  • Step ratio — сколько шагов агент сделал относительно ожидаемого бюджета: общее число фактических шагов / ожидаемых. 1.0 — ровно по плану, больше 1.0 — модель ходит «длинным маршрутом».
  • Tool call ratio — то же самое, но для количества вызовов инструментов.

Эти метрики не только про «правильно или нет», но и про стиль работы агента: насколько он экономно использует шаги и инструменты.

Что это значит для вас

Если вы делаете продукт с агентами — ассистент для документов, кодовый помощник, бота для поддержки, — открытые модели стали реальной альтернативой дорогим флагманам.

Где они особенно полезны:

  • Высокая нагрузка. При миллионах токенов в день разница между $250 и $12 превращается в серьёзную статью бюджета. Для стартапа или внутреннего корпоративного сервиса это часто решает, запустится ли проект вообще.
  • Интерактивные интерфейсы. GLM-5 на Baseten даёт 0,65 секунды задержки и 70 токенов/сек. Для чат‑интерфейса, где пользователь ждёт мгновенной реакции, это комфортнее, чем несколько секунд ожидания.
  • Агентные пайплайны. Если ваш агент делает много шагов и часто вызывает инструменты, открытая модель с низкой ценой за токен позволяет смелее масштабировать сценарии.

Где лучше подумать дважды:

  • Сверхсложные задачи рассуждения, где вы целитесь в максимум качества любой ценой, — например, редкие юридические кейсы или критичная медицина. Для таких сценариев многие команды всё ещё выбирают самые сильные закрытые модели.
  • Жёсткие требования по приватности, если вы не готовы отправлять данные внешним провайдерам. Deep Agents умеет работать с локальными моделями через Ollama или vLLM, но тогда нужно своё железо и настройка.

Доступность в России зависит от конкретного провайдера: OpenRouter, Baseten и другие сервисы могут требовать VPN и зарубежный платёжный метод.

Если вы уже используете LangChain, логичный шаг — протестировать GLM-5 и MiniMax M2.7 в тех же сценариях, где у вас сейчас стоят Claude или GPT, и сравнить качество с учётом расходов.

Место на рынке

По цене и скорости открытые модели смотрятся агрессивно на фоне флагманов:

  • MiniMax M2.7 дешевле Claude Opus 4.6 примерно в 20 раз по выходным токенам ($1.20 против $25.00).
  • GLM-5 по стоимости ближе к середине, но всё равно заметно дешевле GPT-5.4 и Claude Sonnet 4.6.
  • По задержке GLM-5 на Baseten в среднем отвечает почти в 4 раза быстрее Claude Opus 4.6 (0,65 секунды против 2,56 секунды) и генерирует примерно в два раза больше токенов в секунду.

По качеству на агентных задачах GLM-5 и MiniMax M2.7 уже не выглядят «урезанными» по сравнению с закрытыми флагманами. LangChain показывает, что они уверенно справляются с файлами, инструментами и сложными инструкциями.

Компромисс очевиден: закрытые модели вроде Claude Opus 4.6 и GPT-5.4 по‑прежнему остаются верхней планкой для самых тяжёлых кейсов. Но если вы строите массовый продукт с агентами и считаете деньги, открытые модели вроде GLM-5 и MiniMax M2.7 становятся разумным базовым выбором, а не запасным вариантом "на всякий случай".


Читайте также

Открытые ИИ‑модели догнали флагманы: GLM-5 и MiniMax M2.7 в агентных задачах — VogueTech | VogueTech