Открытые ИИ‑модели догнали флагманы: GLM-5 и MiniMax M2.7 в агентных задачах — VogueTech

Что появилось / что изменилось

LangChain прогнал открытые языковые модели через свои Deep Agents и сравнил их с топовыми закрытыми системами. В фокусе — агентные сценарии: работа с файлами, вызов инструментов и точное следование инструкциям.

Две открытые модели — GLM-5 (через Baseten) и MiniMax M2.7 (через OpenRouter) — показали качество, сопоставимое с закрытыми флагманами вроде Claude Opus 4.6, Claude Sonnet 4.6 и GPT-5.4 на этих задачах.

Главное — цифры по цене за миллион токенов:

Claude Opus 4.6: вход $5.00, выход $25.00
Claude Sonnet 4.6: вход $3.00, выход $15.00
GPT-5.4: вход $2.50, выход $15.00
GLM-5 (Baseten): вход $0.95, выход $3.15
MiniMax M2.7 (OpenRouter): вход $0.30, выход $1.20

Пример нагрузки: приложение генерирует 10 млн токенов в день.
Claude Opus 4.6 обойдётся примерно в $250 в день, MiniMax M2.7 — примерно в $12 в день. Разница по году — около $87 000.

По задержкам картина тоже интересная. На OpenRouter:

GLM-5 на Baseten: средняя задержка 0,65 секунды, скорость 70 токенов/сек
Claude Opus 4.6: 2,56 секунды, 34 токена/сек

Для продуктов, где важен отклик в реальном времени, это ощутимый разрыв.

Как это работает

LangChain тестирует модели в своём окружении Deep Agents — это каркас для агентных систем, где ИИ не просто отвечает текстом, а:

вызывает внешние инструменты (API, функции);
читает и изменяет файлы;
использует память и контекст;
общается с пользователем по шагам.

Для открытых моделей запустили семь типов проверок:

операции с файлами;
использование инструментов;
поиск и извлечение информации;
диалог;
работа с памятью;
суммаризация;
«юнит‑тесты» на базовые способности.

Каждый тест описывает, что именно считается успехом (жёсткие проверки) и как оценить эффективность (мягкие метрики). LangChain смотрит на четыре показателя:

Correctness — доля успешно решённых тестов. Например, 0,68 значит, что модель правильно справилась с 68% кейсов.
Solve rate — точность плюс скорость: ожидаемое число шагов делят на реальное время выполнения. Проваленные тесты дают ноль. Чем выше среднее значение, тем лучше модель решает задачи и тем быстрее она это делает.
Step ratio — сколько шагов агент сделал относительно ожидаемого бюджета: общее число фактических шагов / ожидаемых. 1.0 — ровно по плану, больше 1.0 — модель ходит «длинным маршрутом».
Tool call ratio — то же самое, но для количества вызовов инструментов.

Эти метрики не только про «правильно или нет», но и про стиль работы агента: насколько он экономно использует шаги и инструменты.

Что это значит для вас

Если вы делаете продукт с агентами — ассистент для документов, кодовый помощник, бота для поддержки, — открытые модели стали реальной альтернативой дорогим флагманам.

Где они особенно полезны:

Высокая нагрузка. При миллионах токенов в день разница между $250 и $12 превращается в серьёзную статью бюджета. Для стартапа или внутреннего корпоративного сервиса это часто решает, запустится ли проект вообще.
Интерактивные интерфейсы. GLM-5 на Baseten даёт 0,65 секунды задержки и 70 токенов/сек. Для чат‑интерфейса, где пользователь ждёт мгновенной реакции, это комфортнее, чем несколько секунд ожидания.
Агентные пайплайны. Если ваш агент делает много шагов и часто вызывает инструменты, открытая модель с низкой ценой за токен позволяет смелее масштабировать сценарии.

Где лучше подумать дважды:

Сверхсложные задачи рассуждения, где вы целитесь в максимум качества любой ценой, — например, редкие юридические кейсы или критичная медицина. Для таких сценариев многие команды всё ещё выбирают самые сильные закрытые модели.
Жёсткие требования по приватности, если вы не готовы отправлять данные внешним провайдерам. Deep Agents умеет работать с локальными моделями через Ollama или vLLM, но тогда нужно своё железо и настройка.

Доступность в России зависит от конкретного провайдера: OpenRouter, Baseten и другие сервисы могут требовать VPN и зарубежный платёжный метод.

Если вы уже используете LangChain, логичный шаг — протестировать GLM-5 и MiniMax M2.7 в тех же сценариях, где у вас сейчас стоят Claude или GPT, и сравнить качество с учётом расходов.

Место на рынке

По цене и скорости открытые модели смотрятся агрессивно на фоне флагманов:

MiniMax M2.7 дешевле Claude Opus 4.6 примерно в 20 раз по выходным токенам ($1.20 против $25.00).
GLM-5 по стоимости ближе к середине, но всё равно заметно дешевле GPT-5.4 и Claude Sonnet 4.6.
По задержке GLM-5 на Baseten в среднем отвечает почти в 4 раза быстрее Claude Opus 4.6 (0,65 секунды против 2,56 секунды) и генерирует примерно в два раза больше токенов в секунду.

По качеству на агентных задачах GLM-5 и MiniMax M2.7 уже не выглядят «урезанными» по сравнению с закрытыми флагманами. LangChain показывает, что они уверенно справляются с файлами, инструментами и сложными инструкциями.

Компромисс очевиден: закрытые модели вроде Claude Opus 4.6 и GPT-5.4 по‑прежнему остаются верхней планкой для самых тяжёлых кейсов. Но если вы строите массовый продукт с агентами и считаете деньги, открытые модели вроде GLM-5 и MiniMax M2.7 становятся разумным базовым выбором, а не запасным вариантом "на всякий случай".

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также