- Дата публикации
Agent Reading Test: стресс‑тест для ИИ-агентов, которые читают документацию
Что появилось / что изменилось
Появился публичный бенчмарк Agent Reading Test — сайт, который измеряет, насколько хорошо ИИ-агенты для программирования читают веб-документацию.
Кого тестируют:
- Claude Code
- Cursor
- GitHub Copilot
- любые другие кодовые агенты с доступом к вебу
Что именно делает тест:
- даёт агенту 10 задач по документации
- каждая задача завязана на отдельный тип сбоя при чтении сайтов
- в страницы встроены «канарейки» — специальные токены в разных частях разметки
- после выполнения задач агенту раскрывают, что были токены, и просят перечислить, какие он видел
- человек копирует список токенов в форму и получает подробный разбор, где пайплайн агента потерял контент
Система оценки:
- максимум — 20 баллов
- 1 балл за каждый найденный канареечный токен
- 1 балл за каждый правильно отвеченный качественный вопрос по документации
- типичный результат для текущих агентов — примерно 14–18 из 20, в зависимости от того, как у платформы устроена загрузка веб-страниц
Исходники доступны на GitHub: github.com/agent-ecosystem/agent-reading-test.
Как это работает
Agent Reading Test — это набор страниц на agentreadingtest.com, спроектированный на основе спецификации Agent-Friendly Documentation Spec. Спецификация описывает 22 проверки в 8 категориях, которые показывают, насколько удобно документации работать с ИИ-агентами.
Каждая тестовая страница имитирует конкретную проблему:
- обрезка контента при загрузке длинной страницы
- скрытие основного текста из-за агрессивного CSS
- клиентский рендеринг, когда HTML сначала пустой, а контент подгружается скриптами
- вкладки и переключатели, которые превращаются в одну «стену текста», где агент видит только первую вариацию
Ключевая идея — канарейки:
- токены прячут в критичных местах: в скрытых блоках, во вкладках, в динамически рендеримом тексте
- от агента не требуют искать токены напрямую, чтобы не ломать фильтры релевантности
- вместо этого агент решает обычные задачи по документации: понять API, найти параметры, описать поведение
- только после завершения всех 10 задач агент попадает на итоговую страницу, где узнаёт про токены и должен перечислить увиденные
Дальше человек:
- Берёт у агента список токенов в виде CSV.
- Вставляет его в форму на сайте.
- Получает расшифровку: какие токены дошли до модели, а какие потерялись в цепочке «загрузчик → парсер → контекст».
Что это значит для вас
Если вы разрабатываете ИИ-агента или интегрируете кодового ассистента в IDE, Agent Reading Test помогает понять, где именно ваш продукт спотыкается на реальных сайтах документации.
Где полезен тест:
- разработчикам агентов — проверить, как работает пайплайн веб-доступа: подгрузка JS, обработка CSS, разворачивание вкладок, лимиты на длину страницы
- командам, пишущим документацию — понять, насколько текущий сайт удобен для ИИ-помощников, и какие паттерны верстки ломают чтение
- инженерам, которые зависят от агентов — сравнить разные продукты на своих задачах по чтению доков, а не только по синтетическим задачам кодогенерации
Когда использовать:
- перед запуском или крупным обновлением агента с веб-доступом
- при смене стека рендеринга документации (новый фронтенд, новый движок доков)
- при сравнении нескольких ассистентов для команды разработки
Когда пользы будет мало:
- если ваш ассистент вообще не ходит в интернет и работает только по локальным файлам
- если вы используете ИИ только для генерации кода по описанию задачи, без чтения документации
Сервис доступен через обычный браузер по адресу https://agentreadingtest.com/start/. Отдельных ограничений по регионам в описании нет, но доступ к сайту зависит от сетевых условий и политики провайдера. Если ваш ИИ-агент работает из среды с ограниченным выходом в интернет, ему может потребоваться прокси или VPN, чтобы дотянуться до теста.
Практический сценарий:
- Даёте агенту ссылку
https://agentreadingtest.com/start/и короткую инструкцию: «следуй указаниям на сайте». - Ждёте, пока он завершит 10 задач и вернёт список токенов.
- Вставляете список в форму на сайте и получаете отчёт.
- По отчёту видно, на каких типах страниц пайплайн теряет данные.
Место на рынке
Agent Reading Test живёт рядом со спецификацией Agent-Friendly Documentation Spec. Спецификация проверяет сами сайты документации: насколько они удобны для ИИ-читателей. Новый бенчмарк разворачивает фокус и измеряет уже агентов.
По сути, это специализированный инструмент для оценки «зрения» кодовых ассистентов в вебе. Он не конкурирует с классическими бенчмарками по коду, вроде HumanEval или задач LeetCode, потому что проверяет не качество генерации, а качество чтения документации.
От других подходов его отличает две вещи:
- привязка к реальным сбоям: каждая страница заточена под конкретный тип ошибки, наблюдавшийся в рабочих пайплайнах агентов
- комбинация количественных и качественных метрик: токены дают числовой счёт, вопросы по содержанию показывают, понял ли агент текст, а не просто загрузил его
Сравнивать Agent Reading Test по скорости или стоимости с продуктами вроде GPT-4o, Claude 3.5 или Copilot некорректно: это не сервис, а тестовый полигон. Его задача — дать разработчикам и командам понятный способ измерить, насколько их ИИ-агенты справляются с реальными сайтами документации, где полно CSS-хака, вкладок и клиентского рендеринга.