Google показала agentic RAG: поиск, который сам дособирает недостающие данные — VogueTech

Что нового

Google добавила в Gemini Enterprise Agent Platform новую архитектуру поиска — agentic RAG с кросс-корпусным поиском (Cross-Corpus Retrieval).

Главные факты:

Многоагентная RAG‑схема с отдельными агентами: оркестратор, планировщик, переписчик запросов, агент фан-аут поиска, RAG‑агент, Sufficient Context Agent и агент синтеза.
Новый Sufficient Context Agent проверяет, хватает ли фактов для ответа, и запускает дополнительные поиски, если данные неполные.
По сравнению со стандартным RAG Google заявляет рост точности на фактологических датасетах до 34%.
На датасете FramesQA (824 сложных мультихоп‑запроса, 2 676 PDF‑документов) agentic RAG:
- в кросс-корпусном режиме (4 набора документов, один целевой + 3 «шумовых») даёт 90,1% правильных ответов;
- при этом точность почти не падает относительно режима с одним корпусом.
Задержка (latency) в однокорпусном и кросс-корпусном режимах отличается менее чем на 3%.
Функция доступна как public preview в Gemini Enterprise Agent Platform.

Цены, лимиты контекста и точные SLA Google не раскрывает. Это часть корпоративной платформы Gemini, а не отдельный публичный API вроде PaLM 2.

Как это работает

Классический RAG vs agentic RAG

Обычный «ванильный» RAG работает просто:

LLM получает вопрос.
Ретривер ищет релевантные документы по этому вопросу.
LLM пишет ответ по найденному контексту.

Проблема: если данные лежат в разных системах, а запрос многошаговый, RAG часто даёт неполный ответ или честно пишет «не нашёл», хотя нужные факты есть, но в другом «острове» данных.

Agentic RAG превращает поиск в последовательность шагов с несколькими агентами, которые умеют планировать, переписывать запросы и повторно искать недостающие фрагменты.

Роли агентов

Google описывает архитектуру как «исследовательский отдел», а не один поисковик. Внутри работают несколько специализированных агентов.

Orchestrator (Root Agent)
- Принимает исходный запрос.
- Понимает, что задача сложная и многосоставная.
- Делит её на подзадачи и раздаёт другим агентам.
Planner Agent
- Строит план, по каким источникам и в каком порядке искать.
- Пример: «сначала финансовая БД, потом логи проектного менеджмента».
- В кросс-корпусном режиме решает, из какого корпуса документов вообще стоит читать.
Query Rewriter
- Разбивает длинный, размытый запрос на несколько конкретных поисковых подзапросов.
- Пример: из «Что с проектом X?» делает:
  - «Отчёт о статусе Project X за Q3»
  - «Основные блокеры команды Project X».
Search Fanout Agent
- Берёт набор переписанных запросов.
- Рассылает их по разным источникам: базы, индексы, внешние корпуса.
- Собирает фрагменты текста (snippets) для дальнейшей работы.
RAG Agent
- Классический RAG‑компонент: по каждому подзапросу ищет в индексе и возвращает релевантные куски документов.
Sufficient Context Agent — ключевая новинка
- Стоит на «выходе» перед генерацией ответа.
- Делает три типа проверки:
1. Проверка извлечённых фрагментов
- Читает текстовые сниппеты, которые вернул RAG Agent.
- Смотрит, есть ли в них ответы на все части исходного вопроса.
2. Проверка черновика ответа
- Система формирует промежуточный черновик.
- Sufficient Context Agent смотрит на:
  - исходный запрос,
  - черновой ответ,
  - извлечённые фрагменты.
- Если в запросе три пункта (например, лекарства, диета, аллергии), а в сниппетах только два, агент помечает контекст как «недостаточный».
3. Анализ пропусков (missing pieces)
- Агент явно формулирует, чего не хватает.
- Генерирует лог с «Reason» и «Feedback»:
  - «Нашли список лекарств и диету».
  - «Не нашли данные об аллергических реакциях или побочных эффектах».
- Даёт конкретный совет другим агентам: что именно и где искать дальше, например: «перепроверь документы по ключевым словам “rash”, “adverse events”».
Iteration loop
- На основе фидбэка Sufficient Context Agent переписчик запросов формирует новые, более точные подзапросы.
- RAG Agent повторно ищет, иногда в других документах или корпусах.
- Цикл повторяется, пока агент не решит, что данных достаточно.
Synthesis Agent
- Когда Sufficient Context Agent подтверждает полноту контекста, агент синтеза собирает финальный ответ.
- Делает связное резюме с опорой на найденные документы.

Пример из медицины

Google разбирает запрос врача:

«Какие препараты для выписки и диетические ограничения у пациента после операции на колене, были ли аллергические реакции во время госпитализации? Не включай препараты, которые давали только в стационаре или при обращении в приёмный покой, кроме гепарина IV и Tenecteplase».

Ход работы:

Root Agent понимает, что нужно три блока: лекарства, питание, аллергии.
Planner Agent выбирает три источника: аптека (pharmacy), нутриция (nutrition), клинические записи (clinical notes).
Query Rewriter превращает длинный текст в несколько точных запросов по каждому блоку.
RAG Agent ищет сразу по всем фан-аут запросам.
Находит лекарства и диету, но не находит аллергии.
В обычном RAG на этом всё: ответ будет частичным.
Sufficient Context Agent видит, что часть про аллергии не покрыта сниппетами.
Агент формулирует, чего не хватает, и просит переписать запрос, чтобы целиться в «rashes», «adverse events» и т.п.
Query Rewriter создаёт новый запрос, RAG Agent лезет глубже в клинические записи.
После повторного поиска система находит нужные данные, Sufficient Context Agent подтверждает полноту, Synthesis Agent формирует итоговый отчёт.

Пример из FramesQA (мультимодальный фактологический датасет)

Задача:

«Из двух самых просматриваемых финалов телесезонов (на июнь 2024 года) какой шёл дольше и на сколько?»

Шаги, которые должна выполнить система:

Найти, что два самых просматриваемых финала — это MASH и Cheers.
Найти длительность каждого финала.
Посчитать разницу.

Vanilla RAG часто отвечает в духе:

«Не нашёл явных длительностей, есть только данные по просмотрам».

Agentic RAG:

Сначала ищет сами шоу.
Потом через Query Rewriter и Sufficient Context Agent запускает целевые запросы на длительность финалов.
После этого Gemini может спокойно ответить:

«Финал MASH шёл 150 минут, это на 52 минуты дольше финала Cheers (примерно 98 минут)».

На этом датасете Google и оценивает выигрыш по точности.

Что это значит для вас

Для кого это реально полезно

Agentic RAG заточен под сложные, многошаговые запросы, где данные лежат в разных системах.

Стоит смотреть на эту технологию, если вы:

Enterprise / крупный бизнес
- У вас несколько БД и хранилищ: CRM, ERP, тикеты, документы, вики.
- Сотрудники задают вопросы, которые требуют 2–5 «прыжков» по данным.
- Важна прослеживаемость и обоснованность ответа (аудит, регуляторы).
Финансовые сервисы и аналитика
- Нужно собирать данные из разных отчётов, логов, систем учёта.
- Частые запросы вида: «покажи бюджет по проектам с учётом последних корректировок и рисков».
Медицина и здравоохранение
- Истории болезни, назначения, лабораторные отчёты живут в разных подсистемах.
- Важно не пропустить критичную деталь (аллергию, побочный эффект).
Внутренние ассистенты для корпораций
- Нужен «внутренний Copilot», который не просто отвечает по одному документу, а умеет переходить между системами и проверять, что ничего не упущено.

Где agentic RAG помогает особенно сильно

Мультихоп‑запросы
- Всё, что требует нескольких логических шагов: найти сущности, потом их свойства, потом посчитать разницу или собрать сводку.
Кросс-корпусный поиск
- Когда данные лежат в нескольких независимых хранилищах.
- Planner Agent умеет выбирать нужный корпус, а не стрелять по всем подряд.
Сценарии, где опасны «догадки» модели
- Sufficient Context Agent снижает риск, что LLM просто придумает недостающие факты.
- Если данных нет, система может честно сказать, что не хватает контекста.
Аудит и соответствие требованиям
- Ответ опирается на явно извлечённые сниппеты.
- Легче показать, откуда взялась каждая часть вывода.

Где технология пока спорна

Простые Q&A по одному документу
- Для FAQ, базовых чат-ботов и поиска по одной базе классический RAG часто дешевле и проще.
- Многоагентная схема может быть избыточной.
Сверхжёсткие требования по задержке
- Google заявляет, что разница в latency между одним и четырьмя корпусами < 3%.
- Но многоагентный цикл с итерациями всё равно сложнее, чем один запрос к ретриверу.
- Для real-time сценариев с миллисекундными SLA может потребоваться тюнинг и кэширование.
Ограниченный доступ к Google Cloud / Gemini
- Agentic RAG доступен через Gemini Enterprise Agent Platform.
- Для России доступ к сервисам Google Cloud и Gemini нестабилен и часто требует VPN и корпоративной инфраструктуры за пределами РФ.

Практический совет

Если вы уже используете RAG в корпоративном ассистенте и регулярно видите:

неполные ответы,
«не нашёл», хотя люди потом находят руками,
галлюцинации, когда модель заполняет пробелы выдумками,

agentic RAG — логичный следующий шаг. Его стоит тестировать на ваших реальных сценариях, особенно там, где запросы мультишаговые и данные раскиданы по разным системам.

Если же вы только начинаете и у вас один индекс документов, проще стартовать с классического RAG, а к agentic‑схеме вернуться, когда структура данных усложнится.

Место на рынке

Google напрямую не сравнивает agentic RAG с продуктами OpenAI или Anthropic по скорости и цене. Зато даёт несколько опорных точек по сравнению с собственным «ванильным» RAG.

Что есть в цифрах:

До 34% прироста точности на фактологических датасетах по сравнению со стандартным RAG Google.
На FramesQA в кросс-корпусном режиме (4 корпуса документов) — 90,1% правильных ответов.
Разница в задержке между однокорпусным и кросс-корпусным режимами — в среднем менее 3%.

Что это говорит о позиции продукта:

Google делает ставку не только на качество самой модели (Gemini), но и на архитектуру вокруг неё: планирование, маршрутизация запросов, контроль полноты контекста.
Agentic RAG встроен в корпоративную платформу, а не идёт как отдельный open source‑фреймворк. Это ближе к «платформенным ассистентам» в духе Microsoft Copilot Studio, чем к библиотекам уровня LangChain.
Сценарий «cross-corpus» явно нацелен на большие компании с разрозненными хранилищами данных, а не на стартапы с одним векторным индексом.

По сравнению с классическими RAG‑решениями в экосистеме open source (Haystack, LangChain, LlamaIndex), главное отличие — наличие встроенного Sufficient Context Agent, который формализует понятие «достаточного контекста» и запускает дополнительные итерации поиска автоматически.

Конкретных сравнений по цене запросов, лимитам токенов или скорости с GPT‑4o, Claude 3/4 или другими проприетарными системами Google не приводит. Поэтому оценивать экономику придётся на собственных пилотах в Gemini Enterprise Agent Platform.

Итог

Agentic RAG от Google — это шаг от «поиска по одному индексу» к многошаговому исследованию по нескольким источникам с встроенным контролем полноты данных. Для сложных корпоративных сценариев это реальный способ снизить число неполных ответов и галлюцинаций без ручного написания многоходовых пайплайнов.

Если вы строите внутреннего ассистента на данных компании и уже упёрлись в ограничения классического RAG, стоит внимательно посмотреть на новый режим в Gemini Enterprise Agent Platform — особенно на кросс-корпусный поиск и Sufficient Context Agent.