Как LangChain обучает Deep Agents: не больше тестов, а лучше — VogueTech

Что появилось / что изменилось

LangChain подробно описала, как она строит систему оценок для Deep Agents — открытого фреймворка агентов, который уже работает в продуктах Fleet и Open SWE.

Ключевые изменения и принципы:

Фокус на поведении агентов в продакшене, а не на абстрактных бенчмарках.
Каждая проверка (eval) завязана на конкретный сценарий: чтение файлов, последовательные вызовы инструментов, работа с кодом.
Все прогоны eval‑ов идут в общий проект LangSmith. Любой человек в команде видит трейсы, может разбирать ошибки и улучшать агента.
Разделение двух миров:
- unit/integration‑тесты SDK (prompt passthrough, interrupt config, маршрутизация субагентов);
- eval‑ы именно модельных способностей (например, умение вызывать инструменты или читать файлы).
Источники задач: собственный продакшн (dogfooding), внешние наборы (Terminal Bench 2.0, BFCL), плюс «ручные» тесты под конкретные навыки.

Главная идея — не плодить сотни тестов ради процента в отчёте, а держать ограниченный, но осмысленный набор проверок, который реально улучшает поведение агента.

Как это работает

Команда начинает не с датасета, а с вопросов: какое поведение агента важно в продакшене.

Примеры таких поведений:

доставать релевантный контент из нескольких файлов в файловой системе;
корректно строить цепочку из 5+ вызовов инструментов;
аккуратно пользоваться утилитой чтения файлов (read_file) без лишних запросов.

Под каждое поведение LangChain:

Подбирает или пишет задачи вручную.
Формулирует метрику и критерий успеха (проверяемое, а не «на глаз»).
Добавляет к eval‑у docstring: что именно он проверяет и как.
Навешивает теги (например, tool_use), чтобы запускать группами.
Прогоняет агентов, смотрит трейсы, разбирает типичные провалы.

Трейсы всех запусков летят в LangSmith. Это даёт общий «центр диагностики»: можно поднять конкретный провал Open SWE в чужом репозитории, посмотреть шаги агента, понять, где он свернул не туда, и превратить этот случай в новый eval.

Для кодовых задач команда использует Harbor и запускает задания из Terminal Bench 2.0 в изолированных окружениях. Для function calling — берёт задания из BFCL и адаптирует их под конкретного агента. Отдельная категория — минимальные точечные тесты на отдельный инструмент вроде read_file.

Что это значит для вас

Если вы строите своих агентов на базе LangChain, Deep Agents или других инструментов, главный практический вывод простой: не гонитесь за шириной набора тестов, думайте о том, что именно вы измеряете.

Как можно использовать подход LangChain:

Запуск нового агента для внутреннего использования. Начните с dogfooding: дайте команде активно пользоваться агентом, включите трассировку и из каждого сбоя делайте отдельный eval. Это быстро накапливает «живые» задачи, которые отражают реальную нагрузку.
Коммерческий продукт на агентах. Описывайте критичные сценарии: работа с файловой системой, доступ к API, длинные цепочки инструментов. Под них пишите небольшие, но проверяемые eval‑ы. Подключите сбор трейсов (через LangSmith или аналог) и регулярно пересматривайте, какие тесты ещё приносят пользу.
Интеграция нового LLM. Не надо обстреливать модель огромным количеством абстрактных бенчмарков. Гораздо полезнее прогнать несколько десятков целевых eval‑ов на ваши типичные сценарии и смотреть, что реально ломается.

Где подход будет лишним:

Если вы просто вызываете GPT‑4o или Claude 3 Opus один раз в чате и не строите сложного пайплайна с инструментами, выдерживать такую дисциплину по eval‑ам избыточно.
Если нет инфраструктуры для логирования и анализа трейсов, придётся сначала решить это — без трассировок собирать хорошие eval‑ы тяжело.

Deep Agents и Open SWE — open source, доступен исходный код и подход к тестам. Если вы работаете из России, могут потребоваться VPN и обходные пути для доступа к GitHub и облачным сервисам LangChain и LangSmith.

Место на рынке

LangChain борется не за ещё один LLM, а за качественный фреймворк вокруг агентов: инструменты, трейсы, eval‑ы, запуск в продакшене. На этом поле рядом живут собственные стеки крупных игроков и open‑source‑решения.

Если сравнивать подход по духу, LangChain играет в ту же лигу, что и внутренние eval‑системы у OpenAI и Anthropic, но с акцентом на открытость и переиспользование:

Deep Agents — открытый, модель‑агностичный harness, который можно подключить к GPT‑4o, Claude 3 или другим моделям.
Система eval‑ов завязана на LangSmith, который закрывает логирование, хранение и анализ трейсов.

Прямых численных сравнений с альтернативами LangChain не приводит. Есть только чёткий экономический аргумент: таргетированные eval‑ы дешевле массовых прогонов по большим бенчмаркам и при этом лучше влияют на поведение агентов в реальных продуктах.

Если вам нужен не просто LLM‑чарчик, а агент с инструментами, и вы готовы инвестировать время в инфраструктуру, подход LangChain даёт рабочий шаблон: как собирать данные, как определять метрики и как со временем делать агента менее сюрпризным в проде.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также