Agent Reading Test: стресс‑тест для ИИ-агентов, которые читают документацию — VogueTech

Что появилось / что изменилось

Появился публичный бенчмарк Agent Reading Test — сайт, который измеряет, насколько хорошо ИИ-агенты для программирования читают веб-документацию.

Кого тестируют:

Claude Code
Cursor
GitHub Copilot
любые другие кодовые агенты с доступом к вебу

Что именно делает тест:

даёт агенту 10 задач по документации
каждая задача завязана на отдельный тип сбоя при чтении сайтов
в страницы встроены «канарейки» — специальные токены в разных частях разметки
после выполнения задач агенту раскрывают, что были токены, и просят перечислить, какие он видел
человек копирует список токенов в форму и получает подробный разбор, где пайплайн агента потерял контент

Система оценки:

максимум — 20 баллов
1 балл за каждый найденный канареечный токен
1 балл за каждый правильно отвеченный качественный вопрос по документации
типичный результат для текущих агентов — примерно 14–18 из 20, в зависимости от того, как у платформы устроена загрузка веб-страниц

Исходники доступны на GitHub: github.com/agent-ecosystem/agent-reading-test.

Как это работает

Agent Reading Test — это набор страниц на agentreadingtest.com, спроектированный на основе спецификации Agent-Friendly Documentation Spec. Спецификация описывает 22 проверки в 8 категориях, которые показывают, насколько удобно документации работать с ИИ-агентами.

Каждая тестовая страница имитирует конкретную проблему:

обрезка контента при загрузке длинной страницы
скрытие основного текста из-за агрессивного CSS
клиентский рендеринг, когда HTML сначала пустой, а контент подгружается скриптами
вкладки и переключатели, которые превращаются в одну «стену текста», где агент видит только первую вариацию

Ключевая идея — канарейки:

токены прячут в критичных местах: в скрытых блоках, во вкладках, в динамически рендеримом тексте
от агента не требуют искать токены напрямую, чтобы не ломать фильтры релевантности
вместо этого агент решает обычные задачи по документации: понять API, найти параметры, описать поведение
только после завершения всех 10 задач агент попадает на итоговую страницу, где узнаёт про токены и должен перечислить увиденные

Дальше человек:

Берёт у агента список токенов в виде CSV.
Вставляет его в форму на сайте.
Получает расшифровку: какие токены дошли до модели, а какие потерялись в цепочке «загрузчик → парсер → контекст».

Что это значит для вас

Если вы разрабатываете ИИ-агента или интегрируете кодового ассистента в IDE, Agent Reading Test помогает понять, где именно ваш продукт спотыкается на реальных сайтах документации.

Где полезен тест:

разработчикам агентов — проверить, как работает пайплайн веб-доступа: подгрузка JS, обработка CSS, разворачивание вкладок, лимиты на длину страницы
командам, пишущим документацию — понять, насколько текущий сайт удобен для ИИ-помощников, и какие паттерны верстки ломают чтение
инженерам, которые зависят от агентов — сравнить разные продукты на своих задачах по чтению доков, а не только по синтетическим задачам кодогенерации

Когда использовать:

перед запуском или крупным обновлением агента с веб-доступом
при смене стека рендеринга документации (новый фронтенд, новый движок доков)
при сравнении нескольких ассистентов для команды разработки

Когда пользы будет мало:

если ваш ассистент вообще не ходит в интернет и работает только по локальным файлам
если вы используете ИИ только для генерации кода по описанию задачи, без чтения документации

Сервис доступен через обычный браузер по адресу https://agentreadingtest.com/start/. Отдельных ограничений по регионам в описании нет, но доступ к сайту зависит от сетевых условий и политики провайдера. Если ваш ИИ-агент работает из среды с ограниченным выходом в интернет, ему может потребоваться прокси или VPN, чтобы дотянуться до теста.

Практический сценарий:

Даёте агенту ссылку https://agentreadingtest.com/start/ и короткую инструкцию: «следуй указаниям на сайте».
Ждёте, пока он завершит 10 задач и вернёт список токенов.
Вставляете список в форму на сайте и получаете отчёт.
По отчёту видно, на каких типах страниц пайплайн теряет данные.

Место на рынке

Agent Reading Test живёт рядом со спецификацией Agent-Friendly Documentation Spec. Спецификация проверяет сами сайты документации: насколько они удобны для ИИ-читателей. Новый бенчмарк разворачивает фокус и измеряет уже агентов.

По сути, это специализированный инструмент для оценки «зрения» кодовых ассистентов в вебе. Он не конкурирует с классическими бенчмарками по коду, вроде HumanEval или задач LeetCode, потому что проверяет не качество генерации, а качество чтения документации.

От других подходов его отличает две вещи:

привязка к реальным сбоям: каждая страница заточена под конкретный тип ошибки, наблюдавшийся в рабочих пайплайнах агентов
комбинация количественных и качественных метрик: токены дают числовой счёт, вопросы по содержанию показывают, понял ли агент текст, а не просто загрузил его

Сравнивать Agent Reading Test по скорости или стоимости с продуктами вроде GPT-4o, Claude 3.5 или Copilot некорректно: это не сервис, а тестовый полигон. Его задача — дать разработчикам и командам понятный способ измерить, насколько их ИИ-агенты справляются с реальными сайтами документации, где полно CSS-хака, вкладок и клиентского рендеринга.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также