Дата публикации
ai_products

Agent Reading Test: стресс‑тест для ИИ-агентов, которые читают документацию

Что появилось / что изменилось

Появился публичный бенчмарк Agent Reading Test — сайт, который измеряет, насколько хорошо ИИ-агенты для программирования читают веб-документацию.

Кого тестируют:

  • Claude Code
  • Cursor
  • GitHub Copilot
  • любые другие кодовые агенты с доступом к вебу

Что именно делает тест:

  • даёт агенту 10 задач по документации
  • каждая задача завязана на отдельный тип сбоя при чтении сайтов
  • в страницы встроены «канарейки» — специальные токены в разных частях разметки
  • после выполнения задач агенту раскрывают, что были токены, и просят перечислить, какие он видел
  • человек копирует список токенов в форму и получает подробный разбор, где пайплайн агента потерял контент

Система оценки:

  • максимум — 20 баллов
  • 1 балл за каждый найденный канареечный токен
  • 1 балл за каждый правильно отвеченный качественный вопрос по документации
  • типичный результат для текущих агентов — примерно 14–18 из 20, в зависимости от того, как у платформы устроена загрузка веб-страниц

Исходники доступны на GitHub: github.com/agent-ecosystem/agent-reading-test.

Как это работает

Agent Reading Test — это набор страниц на agentreadingtest.com, спроектированный на основе спецификации Agent-Friendly Documentation Spec. Спецификация описывает 22 проверки в 8 категориях, которые показывают, насколько удобно документации работать с ИИ-агентами.

Каждая тестовая страница имитирует конкретную проблему:

  • обрезка контента при загрузке длинной страницы
  • скрытие основного текста из-за агрессивного CSS
  • клиентский рендеринг, когда HTML сначала пустой, а контент подгружается скриптами
  • вкладки и переключатели, которые превращаются в одну «стену текста», где агент видит только первую вариацию

Ключевая идея — канарейки:

  • токены прячут в критичных местах: в скрытых блоках, во вкладках, в динамически рендеримом тексте
  • от агента не требуют искать токены напрямую, чтобы не ломать фильтры релевантности
  • вместо этого агент решает обычные задачи по документации: понять API, найти параметры, описать поведение
  • только после завершения всех 10 задач агент попадает на итоговую страницу, где узнаёт про токены и должен перечислить увиденные

Дальше человек:

  1. Берёт у агента список токенов в виде CSV.
  2. Вставляет его в форму на сайте.
  3. Получает расшифровку: какие токены дошли до модели, а какие потерялись в цепочке «загрузчик → парсер → контекст».

Что это значит для вас

Если вы разрабатываете ИИ-агента или интегрируете кодового ассистента в IDE, Agent Reading Test помогает понять, где именно ваш продукт спотыкается на реальных сайтах документации.

Где полезен тест:

  • разработчикам агентов — проверить, как работает пайплайн веб-доступа: подгрузка JS, обработка CSS, разворачивание вкладок, лимиты на длину страницы
  • командам, пишущим документацию — понять, насколько текущий сайт удобен для ИИ-помощников, и какие паттерны верстки ломают чтение
  • инженерам, которые зависят от агентов — сравнить разные продукты на своих задачах по чтению доков, а не только по синтетическим задачам кодогенерации

Когда использовать:

  • перед запуском или крупным обновлением агента с веб-доступом
  • при смене стека рендеринга документации (новый фронтенд, новый движок доков)
  • при сравнении нескольких ассистентов для команды разработки

Когда пользы будет мало:

  • если ваш ассистент вообще не ходит в интернет и работает только по локальным файлам
  • если вы используете ИИ только для генерации кода по описанию задачи, без чтения документации

Сервис доступен через обычный браузер по адресу https://agentreadingtest.com/start/. Отдельных ограничений по регионам в описании нет, но доступ к сайту зависит от сетевых условий и политики провайдера. Если ваш ИИ-агент работает из среды с ограниченным выходом в интернет, ему может потребоваться прокси или VPN, чтобы дотянуться до теста.

Практический сценарий:

  1. Даёте агенту ссылку https://agentreadingtest.com/start/ и короткую инструкцию: «следуй указаниям на сайте».
  2. Ждёте, пока он завершит 10 задач и вернёт список токенов.
  3. Вставляете список в форму на сайте и получаете отчёт.
  4. По отчёту видно, на каких типах страниц пайплайн теряет данные.

Место на рынке

Agent Reading Test живёт рядом со спецификацией Agent-Friendly Documentation Spec. Спецификация проверяет сами сайты документации: насколько они удобны для ИИ-читателей. Новый бенчмарк разворачивает фокус и измеряет уже агентов.

По сути, это специализированный инструмент для оценки «зрения» кодовых ассистентов в вебе. Он не конкурирует с классическими бенчмарками по коду, вроде HumanEval или задач LeetCode, потому что проверяет не качество генерации, а качество чтения документации.

От других подходов его отличает две вещи:

  • привязка к реальным сбоям: каждая страница заточена под конкретный тип ошибки, наблюдавшийся в рабочих пайплайнах агентов
  • комбинация количественных и качественных метрик: токены дают числовой счёт, вопросы по содержанию показывают, понял ли агент текст, а не просто загрузил его

Сравнивать Agent Reading Test по скорости или стоимости с продуктами вроде GPT-4o, Claude 3.5 или Copilot некорректно: это не сервис, а тестовый полигон. Его задача — дать разработчикам и командам понятный способ измерить, насколько их ИИ-агенты справляются с реальными сайтами документации, где полно CSS-хака, вкладок и клиентского рендеринга.


Читайте также

🔗 Источник: https://agentreadingtest.com
Agent Reading Test: стресс‑тест для ИИ-агентов, которые читают документацию — VogueTech | VogueTech