Hugging Face запустила Open Agent Leaderboard: общий рейтинг ИИ-агентов по качеству и цене — VogueTech

Что нового

Hugging Face представила Open Agent Leaderboard — открытый рейтинг полноценных ИИ-агентов, а не только языковых моделей внутри них.

Ключевые новшества:

Оценивают не только качество, но и цену: для каждого агента считают средний процент успешных задач и среднюю стоимость одного задания.
Тестируют сразу шесть разных сценариев работы:
- SWE-Bench Verified — исправление реальных багов в реальных репозиториях.
- BrowseComp+ — сложные исследования в интернете.
- AppWorld — личные задачи в сотнях приложений и действий.
- tau2-Bench Airline & Retail — клиентский сервис в авиации и ритейле по корпоративным политикам.
- tau2-Bench Telecom — техподдержка в телеком-сценариях по регламентам.
Оценивают целые агентные системы, а не только модели: планирование шагов, работу с инструментами, память, восстановление после ошибок.
Публичный фреймворк для прогонов — Exgentic. Через него можно запускать и воспроизводить все оценки.
Открытая методология — отдельная научная работа с описанием протокола и результатов.
В текущем релизе участвуют 5 моделей, 5 агентов и 6 бенчмарков.
Добавлены как минимум две открытые модели: DeepSeek V3.2 и Kimi K2.5. По данным авторов, они:
- местами конкурентны на отдельных задачах;
- в среднем отстают от закрытых фронтирных моделей на 18–29 процентных пунктов по качеству.

Отдельно Hugging Face подчёркивает: агенты в рейтинге работают как универсальные системы, без донастройки под конкретные бенчмарки и без тонких оптимизаций промптов, которые обычно используют разработчики моделей.

Как это работает

Что именно измеряют

Open Agent Leaderboard отвечает на вопрос: насколько агент в целом годится как универсальный рабочий инструмент.

Каждый агент — это связка:

конкретной языковой модели;
набора инструментов (API, браузер, файловая система, действия в приложениях);
логики планирования шагов;
механизма памяти и работы с контекстом;
стратегии обработки ошибок и перезапусков.

Рейтинг считает для каждой такой связки:

среднюю успешность по шести бенчмаркам;
среднюю стоимость выполнения одной задачи;
разбивку по каждому бенчмарку.

В таблице каждая строка — это полный агент, а не просто «модель X».

Единый протокол задач

Главная инженерная идея — привести очень разные бенчмарки к общей форме. Hugging Face ввела унифицированный протокол, в котором каждая задача описана тремя частями:

Task (что сделать) — формулировка цели: починить баг, ответить клиенту, найти информацию, выполнить действие в приложении.
Context (что известно) — исходные данные: кодовая база, база знаний, история диалога, состояние приложений.
Actions (что разрешено) — список доступных инструментов и операций: вызвать API, открыть страницу, изменить файл, отправить ответ.

Вместо того чтобы каждый агент подстраивали под формат конкретного бенчмарка, все агенты разговаривают с бенчмарками через один и тот же протокол. При этом:

бенчмарки сохраняют свою оригинальную логику и проверку ответов;
агенты сохраняют «родные» интерфейсы и инструменты;
Exgentic выступает прослойкой, которая согласует эти два мира.

Почему результаты отличаются от обычных рейтингов

Каждый из шести бенчмарков изначально создавали под свою задачу и свой формат. Hugging Face пришлось:

выровнять инструкции и форматы взаимодействия;
убедиться, что это не ломает внутреннюю логику агентов;
синхронизировать это с системой подсчёта стоимости.

Поэтому результаты в Open Agent Leaderboard могут отличаться от цифр на отдельных лидербордах SWE-Bench, BrowseComp+ и других. Здесь оценивают не «наточенный под один тест пайплайн», а одну и ту же агентную систему, брошенную в шесть разных сред.

Что уже видно по данным

Несколько важных выводов, которые Hugging Face явно проговаривает:

Один и тот же модельный ядро — разные агенты — разные результаты. В топ‑3 рейтинга используются одинаковые модели, но:
- финальные баллы по качеству отличаются;
- стоимость задачи тоже разная.
Разрыв по цене значительный. Самая экономичная конфигурация в топ‑5 обходится «в разы» дешевле самой сильной по качеству.
Неудачные прогоны дороже удачных. В экспериментах провальные запуски стоили на 20–54% дороже, чем успешные. Причина — длинные, бесплодные цепочки действий.
Архитектура агента уже даёт заметный вклад. Выбор модели по-прежнему даёт основную часть качества, но:
- грамотный отбор инструментов (tool shortlisting) улучшил результаты на всех протестированных моделях;
- некоторые конфигурации, которые раньше фактически «не работали», после этого стали жизнеспособными.

Что это значит для вас

Для кого вообще полезен этот рейтинг

Open Agent Leaderboard пригодится, если вы:

строите собственных ИИ-агентов для кода, поддержки, поиска информации или автоматизации действий;
выбираете готовый агентный стек и хотите понять, что даёт больше качества за те же деньги;
отвечаете за бюджет на ИИ и вам важно, как сильно цена неудачных запусков разъедает счёт;
делаете бенчмарки или исследуете агенты и хотите опираться на открытые, воспроизводимые данные.

Если вы просто используете ChatGPT или другой чат‑бот как «умный блокнот», Open Agent Leaderboard вряд ли нужен ежедневно. Но он помогает понять, почему два сервиса на одной и той же модели чувствуют себя по‑разному и по качеству, и по счёту в конце месяца.

Где это помогает прямо сейчас

Корпоративные ИИ-ассистенты и helpdesk
Вы можете оценить, насколько универсальный агент справляется с:
- клиентскими запросами по строгим регламентам (tau2-Bench Airline & Retail, Telecom);
- сложными сценариями техподдержки, где нужно соблюдать правила и не выдумывать ответы.
Если вы внедряете ассистента в поддержку, рейтинг подскажет, какие архитектурные решения дают приемлемое качество без раздувания счёта за токены.
Автоматизация в продуктах и внутренних инструментах
AppWorld показывает, как агент ведёт себя в большом пространстве действий: сотни приложений, множество возможных шагов. Это близко к:
- оркестрации бизнес‑процессов;
- автоматизации рутины в личных и рабочих приложениях;
- сложным сценариям «подключи ИИ к нашему стеку SaaS‑сервисов».
Инструменты для разработчиков
SWE-Bench Verified — это проверка, насколько агент реально умеет:
- разбираться в чужом коде;
- находить и исправлять баги в живых репозиториях;
- вносить правки, которые проходят автоматическую проверку.
Если вы строите «ИИ‑ревьюер» или «автофикс багов», вам важнее не абстрактный балл на кодовом бенчмарке, а то, как агент ведёт себя как система: сколько шагов делает, где ломается, сколько стоит одна попытка фикса.
Исследовательские и аналитические задачи
BrowseComp+ проверяет способность агента:
- формулировать сложный запрос;
- ходить по вебу, собирать факты;
- синтезировать осмысленный ответ.
Это ближе к реальной работе ресёрч‑ассистента, чем простой Q&A по статичной базе знаний.

Где пока не стоит полагаться только на этот рейтинг

Узкоспециализированные сценарии. Если у вас очень специфическая доменная область (медицина, право в конкретной юрисдикции, внутренние регламенты), вам всё равно придётся:
- собирать свои тестовые наборы;
- проверять, как агент справляется именно с вашими данными;
- возможно, дообучать или настраивать промпты.
Сценарии, где критична объяснимость и проверяемость. Лидерборд показывает качество и цену, но не даёт детальной метрики объяснимости. Для высокорисковых областей этого недостаточно.
Если у вас нет доступа к конкретным моделям. В рейтинге участвуют и закрытые фронтирные модели. Если они недоступны в вашей юрисдикции или по комплаенсу, ориентируйтесь на результаты открытых моделей вроде DeepSeek V3.2 и Kimi K2.5 и тестируйте их у себя.

Доступность из России

Hugging Face — зарубежный сервис. Для доступа к сайту, Open Agent Leaderboard и Exgentic может потребоваться VPN, в зависимости от текущих ограничений и политики вашего провайдера или компании. Перед использованием в продакшене стоит проверить юридические и комплаенс‑ограничения.

Место на рынке

Open Agent Leaderboard закрывает нишу, которую классические рейтинги моделей не покрывают.

Обычно вы видите: «модель X набрала столько‑то баллов на бенчмарке Y». Но при реальном развёртывании вы выбираете не только модель, а целую систему:

как агент ищет и выбирает инструменты;
как он планирует шаги и сколько шагов делает;
как хранит и использует память;
как реагирует на ошибки и тупиковые ветки.

Open Agent Leaderboard делает это единицей сравнения. На одной таблице можно увидеть:

как разные агентные реализации ведут себя с одной и той же моделью;
насколько дороже обходится «максимум качества» по сравнению с более экономной конфигурацией;
насколько открытые модели (DeepSeek V3.2, Kimi K2.5) отстают от закрытых фронтирных вариантов — в среднем на 18–29 п.п. по качеству на выбранных задачах.

Прямых числовых сравнений с GPT‑4o, Claude 3.5 и другими популярными моделями в описании нет, но структура рейтинга позволяет добавить их в тот же протокол и сравнивать:

качество vs стоимость на одних и тех же задачах;
поведение при провалах (как часто агент «сжигает» много токенов впустую);
влияние архитектурных решений (например, отбора инструментов).

На уровне инфраструктуры Exgentic превращает это в открытый стандарт запуска бенчмарков для агентов: любая команда может обернуть свой агент в этот протокол, прогнать по тем же задачам и получить сопоставимые цифры.

Как запустить и поучаствовать

В описании проекта Hugging Face делает упор не только на просмотр таблицы, но и на участие.

Что уже доступно:

Open Agent Leaderboard — публичный интерфейс, где можно смотреть результаты агентов, модели, бенчмарки, стоимость.
Exgentic — фреймворк для запуска тех же прогонов у себя и воспроизведения результатов.
Исследовательская работа — подробное описание методологии, протокола и аналитики.

Как можно подключиться:

Добавить своего агента.
- Обернуть его в протокол Exgentic (task / context / actions).
- Прогнать по доступным бенчмаркам.
- Отправить результаты через pull request в датасет с результатами.
Добавить новый бенчмарк.
- Подготовить набор задач с программной проверкой ответов.
- Интегрировать его в Exgentic как ещё одну среду.
Добавить модели.
- Особенно интересны открытые модели, которых ещё нет в таблице.
- Можно проверить, как они ведут себя в связке с разными агентными архитектурами.

Hugging Face отдельно просит разработчиков агентов:

версионировать изменения;
документировать внутреннюю структуру систем;
делать компоненты (планировщик, память, работа с инструментами) конфигурируемыми.

Это нужно, чтобы сообщество могло не только видеть конечный балл, но и понимать, какой именно компонент даёт прирост качества или экономии.

Зачем это рынку ИИ-агентов

Open Agent Leaderboard фиксирует несколько важных сдвигов:

Универсальные агенты уже догоняют специализированные. В ряде случаев универсальные агенты без донастройки под конкретный бенчмарк показывают результаты на уровне систем, которые собирали специально под одну задачу.
Стоимость провалов — такая же важная метрика, как и успех. Разница в 20–54% между удачными и неудачными прогоном заставляет серьёзно относиться к стратегиям раннего выхода и детекции тупиков.
Архитектура агента становится самостоятельным полем оптимизации. Сейчас модель даёт основной вклад в качество, но уже видно, что:
- отбор инструментов,
- управление контекстом,
- стратегия планирования могут менять итоговый результат и по качеству, и по цене.

Для команд, которые строят продукты вокруг ИИ‑агентов, это сигнал: соревнование переезжает с «какую модель взять» на уровень «как собрать всю систему».

Open Agent Leaderboard — это не просто ещё одна таблица с баллами. Это попытка договориться о том, как корректно измерять работу ИИ-агентов как целостных систем: в разных средах, с разными задачами, с учётом не только качества, но и денег, которые вы за это платите.