- Дата публикации
Amazon запустила Bedrock AgentCore Evaluations: сервис для проверки ИИ‑агентов до продакшена
Что появилось / что изменилось
Amazon запустила Amazon Bedrock AgentCore Evaluations — полностью управляемый сервис для оценки качества ИИ‑агентов на всех этапах разработки. Сначала Amazon показала его в публичном превью на AWS re:Invent 2025, теперь сервис доступен всем пользователям Bedrock.
Главное, что он делает:
- Автоматически оценивает работу агента по нескольким метрикам: корректность выбора инструментов, параметры вызовов и качество финального ответа.
- Прогоняет одни и те же сценарии многократно, чтобы поймать нестабильное поведение LLM и понять, что происходит «обычно», а не «однажды повезло».
- Использует встроенные модели‑оценщики, при этом их квота и инфраструктура целиком на стороне Amazon — вы не тратите свои лимиты Bedrock.
- Работает поверх трассировок в формате OpenTelemetry (OTEL) с расширениями для генеративного ИИ: в них попадают промпты, ответы, вызовы инструментов и параметры моделей.
По сути, Amazon забрала на себя всю тяжелую часть: от хранения датасетов и запуска оценок до масштабирования и агрегации результатов по многим агентам.
Как это работает
Оценка строится вокруг полного трейсинга сессии агента. Каждый пользовательский запрос превращается в OTEL‑трейс с шагами:
- Агент получает запрос и решает, какие инструменты вызывать.
- Формирует параметры вызова и запускает инструменты.
- Собирает результаты и генерирует ответ пользователю.
AgentCore Evaluations анализирует этот трейс по нескольким слоям:
- Выбор инструмента: тот ли инструмент агент вызвал по сценарию.
- Параметры: корректны ли аргументы, нет ли пропусков или логических ошибок.
- Ответ: насколько результат точен и полезен относительно ожидаемого поведения.
Команда заранее задает критерии «правильного» поведения и собирает тестовый набор запросов, который отражает реальные пользовательские сценарии. Сервис многократно прогоняет эти кейсы через агента, собирает трейсинг и прогоняет его через встроенные оценщики.
AgentCore Evaluations поддерживает два режима:
- Разработка — массовые автотесты на подготовленном датасете, чтобы проверять каждое изменение промптов, логики оркестрации и подключенных инструментов.
- Продакшен — анализ реальных пользовательских сессий через OTEL‑трейсы, чтобы отслеживать деградации и новые типы ошибок.
Все это крутится на инфраструктуре Amazon: от моделей‑оценщиков до масштабирования под нагрузку и соблюдения API rate limit.
Что это значит для вас
Если вы строите агентов на Amazon Bedrock, AgentCore Evaluations закрывает сразу несколько болевых точек:
- Меньше ручного тестирования. Не нужно руками прогонять типовые сценарии после каждого изменения промпта или цепочки инструментов.
- Понятная метрика «стало лучше или хуже». Можно сравнивать версии агента по одинаковому набору кейсов и видеть, где качество реально выросло, а где упало.
- Контроль стоимости. Повторные прогоны сценариев по нескольку раз обычно раздувают счета за API. Здесь вычислительные ресурсы оценщиков не лезут в ваши квоты Bedrock.
- Системная работа с отказами. Каждая новая ошибка превращается в новый тест‑кейс. Сервис поддерживает этот цикл: «ошибка → кейс → фикc → повторная оценка».
Где это полезно:
- Сложные агенты с несколькими инструментами: поиск, базы данных, внутренние API.
- Сценарии, где важна предсказуемость: финансы, логистика, техподдержка с жесткими SLA.
- Команды, которые часто меняют промпты и логику оркестрации и хотят проверять изменения автоматически.
Где ожидания стоит понизить:
- Если вы делаете небольшой экспериментальный чат‑бот, настройка критериев и датасета может занять больше времени, чем принесет пользы.
- Сервис завязан на Amazon Bedrock и OTEL‑трейсинг. Если ваш стек не в AWS, интеграция будет нетривиальной.
- Для России доступ к AWS и Bedrock может потребовать VPN и юридической аккуратности — это важно учитывать на этапе выбора платформы.
Место на рынке
AgentCore Evaluations решает задачу, с которой сейчас сталкиваются все, кто строит агентов на LLM: как системно измерять качество, когда модель ведет себя вероятностно.
На рынке уже есть подходы к автоматической оценке через отдельные LLM, кастомные пайплайны на базе OpenTelemetry и собственные дашборды. Но там команды сами поднимают модели‑оценщики, следят за инфраструктурой и лимитами API.
Amazon делает ставку на то, что пользователям Bedrock удобнее отдать эту часть платформе и получать готовые метрики «из коробки», не расширяя свою инфраструктуру. Прямых численных сравнений с решениями вроде собственных пайплайнов на GPT‑5 или Claude 4 Amazon не приводит, но позиционирует сервис как стандартный компонент цикла разработки агентов внутри Bedrock.
В сухом остатке: если вы уже в экосистеме AWS и строите агентов на Bedrock, AgentCore Evaluations превращает оценку качества из разовой акции в постоянный процесс. Для команд вне AWS это скорее ориентир, как может выглядеть промышленная система оценки агентов, чем готовый инструмент для немедрого внедрения.