- Дата публикации
Открытые ИИ‑модели догнали флагманы: GLM-5 и MiniMax M2.7 в агентных задачах
Что появилось / что изменилось
LangChain прогнал открытые языковые модели через свои Deep Agents и сравнил их с топовыми закрытыми системами. В фокусе — агентные сценарии: работа с файлами, вызов инструментов и точное следование инструкциям.
Две открытые модели — GLM-5 (через Baseten) и MiniMax M2.7 (через OpenRouter) — показали качество, сопоставимое с закрытыми флагманами вроде Claude Opus 4.6, Claude Sonnet 4.6 и GPT-5.4 на этих задачах.
Главное — цифры по цене за миллион токенов:
- Claude Opus 4.6: вход $5.00, выход $25.00
- Claude Sonnet 4.6: вход $3.00, выход $15.00
- GPT-5.4: вход $2.50, выход $15.00
- GLM-5 (Baseten): вход $0.95, выход $3.15
- MiniMax M2.7 (OpenRouter): вход $0.30, выход $1.20
Пример нагрузки: приложение генерирует 10 млн токенов в день.
Claude Opus 4.6 обойдётся примерно в $250 в день, MiniMax M2.7 — примерно в $12 в день. Разница по году — около $87 000.
По задержкам картина тоже интересная. На OpenRouter:
- GLM-5 на Baseten: средняя задержка 0,65 секунды, скорость 70 токенов/сек
- Claude Opus 4.6: 2,56 секунды, 34 токена/сек
Для продуктов, где важен отклик в реальном времени, это ощутимый разрыв.
Как это работает
LangChain тестирует модели в своём окружении Deep Agents — это каркас для агентных систем, где ИИ не просто отвечает текстом, а:
- вызывает внешние инструменты (API, функции);
- читает и изменяет файлы;
- использует память и контекст;
- общается с пользователем по шагам.
Для открытых моделей запустили семь типов проверок:
- операции с файлами;
- использование инструментов;
- поиск и извлечение информации;
- диалог;
- работа с памятью;
- суммаризация;
- «юнит‑тесты» на базовые способности.
Каждый тест описывает, что именно считается успехом (жёсткие проверки) и как оценить эффективность (мягкие метрики). LangChain смотрит на четыре показателя:
- Correctness — доля успешно решённых тестов. Например, 0,68 значит, что модель правильно справилась с 68% кейсов.
- Solve rate — точность плюс скорость: ожидаемое число шагов делят на реальное время выполнения. Проваленные тесты дают ноль. Чем выше среднее значение, тем лучше модель решает задачи и тем быстрее она это делает.
- Step ratio — сколько шагов агент сделал относительно ожидаемого бюджета: общее число фактических шагов / ожидаемых. 1.0 — ровно по плану, больше 1.0 — модель ходит «длинным маршрутом».
- Tool call ratio — то же самое, но для количества вызовов инструментов.
Эти метрики не только про «правильно или нет», но и про стиль работы агента: насколько он экономно использует шаги и инструменты.
Что это значит для вас
Если вы делаете продукт с агентами — ассистент для документов, кодовый помощник, бота для поддержки, — открытые модели стали реальной альтернативой дорогим флагманам.
Где они особенно полезны:
- Высокая нагрузка. При миллионах токенов в день разница между $250 и $12 превращается в серьёзную статью бюджета. Для стартапа или внутреннего корпоративного сервиса это часто решает, запустится ли проект вообще.
- Интерактивные интерфейсы. GLM-5 на Baseten даёт 0,65 секунды задержки и 70 токенов/сек. Для чат‑интерфейса, где пользователь ждёт мгновенной реакции, это комфортнее, чем несколько секунд ожидания.
- Агентные пайплайны. Если ваш агент делает много шагов и часто вызывает инструменты, открытая модель с низкой ценой за токен позволяет смелее масштабировать сценарии.
Где лучше подумать дважды:
- Сверхсложные задачи рассуждения, где вы целитесь в максимум качества любой ценой, — например, редкие юридические кейсы или критичная медицина. Для таких сценариев многие команды всё ещё выбирают самые сильные закрытые модели.
- Жёсткие требования по приватности, если вы не готовы отправлять данные внешним провайдерам. Deep Agents умеет работать с локальными моделями через Ollama или vLLM, но тогда нужно своё железо и настройка.
Доступность в России зависит от конкретного провайдера: OpenRouter, Baseten и другие сервисы могут требовать VPN и зарубежный платёжный метод.
Если вы уже используете LangChain, логичный шаг — протестировать GLM-5 и MiniMax M2.7 в тех же сценариях, где у вас сейчас стоят Claude или GPT, и сравнить качество с учётом расходов.
Место на рынке
По цене и скорости открытые модели смотрятся агрессивно на фоне флагманов:
- MiniMax M2.7 дешевле Claude Opus 4.6 примерно в 20 раз по выходным токенам ($1.20 против $25.00).
- GLM-5 по стоимости ближе к середине, но всё равно заметно дешевле GPT-5.4 и Claude Sonnet 4.6.
- По задержке GLM-5 на Baseten в среднем отвечает почти в 4 раза быстрее Claude Opus 4.6 (0,65 секунды против 2,56 секунды) и генерирует примерно в два раза больше токенов в секунду.
По качеству на агентных задачах GLM-5 и MiniMax M2.7 уже не выглядят «урезанными» по сравнению с закрытыми флагманами. LangChain показывает, что они уверенно справляются с файлами, инструментами и сложными инструкциями.
Компромисс очевиден: закрытые модели вроде Claude Opus 4.6 и GPT-5.4 по‑прежнему остаются верхней планкой для самых тяжёлых кейсов. Но если вы строите массовый продукт с агентами и считаете деньги, открытые модели вроде GLM-5 и MiniMax M2.7 становятся разумным базовым выбором, а не запасным вариантом "на всякий случай".