DataFactory: как команда ИИ-агентов учится отвечать на сложные вопросы к таблицам — VogueTech

Что открыли

Исследователи предложили DataFactory — многоагентную систему для работы с табличными данными, которая снижает галлюцинации и лучше справляется со сложными вопросами.

Команда тестировала DataFactory на трёх известных бенчмарках: TabFact, WikiTableQuestions и FeTaQA. В каждом случае система опиралась на большие языковые модели от пяти разных провайдеров — всего восемь LLM.

На цифрах это выглядит так:

+20,2% к точности на TabFact по сравнению с базовыми подходами;
+23,9% к точности на WikiTableQuestions;
в многоагентной конфигурации прирост к одноагентным вариантам: +5,5% на TabFact, +14,4% на WikiTableQuestions и +17,1% по метрике ROUGE-2 на FeTaQA.

Эффект авторы оценивают как «существенный»: Cohen’s d больше 1. То есть это не косметический выигрыш, а заметный сдвиг в качестве ответов.

Как исследовали

Команда построила многоагентный фреймворк вокруг трёх ролей:

Data Leader — «координатор», который управляет ходом рассуждений и использует подход ReAct: сначала думает, потом вызывает инструменты, потом снова думает.
Database-команда — отвечает за структурированные запросы к табличным данным.
Knowledge Graph-команда — превращает данные в граф знаний и умеет рассуждать по связям между сущностями.

Ключевая идея — автоматически переводить таблицы в граф знаний. Для этого авторы формализовали функцию отображения (T: D \times S \times R \to G), которая берёт данные (D), схему (S), отношения (R) и строит граф (G).

В отличие от жёстких конвейерных схем, где агенты идут строго по шагам, DataFactory позволяет агентам «советоваться» друг с другом на естественном языке и перестраивать план по ходу работы. Плюс авторы добавили контекст-инжиниринг: в промпты подмешиваются исторические паттерны и доменные знания, чтобы снизить галлюцинации и повысить точность.

Что это меняет на практике

Главная боль при работе LLM с таблицами — длина контекста и надёжность ответов. Модели не могут держать в голове большие датасеты, путаются в многошаговой логике и нередко уверенно выдают выдумки.

DataFactory решает это за счёт разделения труда:

сложный вопрос разбивается на подзадачи;
часть запросов идёт в «классическую» базу данных;
часть — в граф знаний, где проще проследить связи и многошаговые выводы.

Для бизнеса это значит более честный и воспроизводимый анализ данных: отчёты, дашборды, аналитические запросы можно прогонять через систему, которая не только «угадывает», но и строит структурный путь к ответу.

Потенциальные сценарии:

аналитика в крупных компаниях с разрозненными таблицами и отчётами;
BI-платформы, которые хотят добавить «чат с данными» без потери точности;
внутренние ассистенты для дата-команд, которым нужно быстро проверить сложные гипотезы.

До готовых коммерческих продуктов ещё один шаг: нужно упаковать фреймворк в сервис, продумать безопасность и интеграции с реальными хранилищами. Но архитектура уже ориентирована на enterprise-кейсы — совместное использование SQL-подобных запросов и графов знаний.

Что это значит для вас

Если вы уже пользуетесь чат-ботами для вопросов к данным — от дашбордов до CSV-файлов, — подобные системы напрямую влияют на качество ваших ответов.

DataFactory показывает, куда движутся следующие версии инструментов:

один ассистент меняется на «команду» специализированных агентов;
ответы всё чаще будут опираться не только на текст, но и на базы данных и графы знаний;
снижение галлюцинаций достигается не магией, а чёткой архитектурой и контекст-инжинирингом.

Плюсы подхода:

лучше работает с длинными и сложными вопросами к таблицам;
даёт ощутимый прирост точности (до +23,9% на публичных бенчмарках);
масштабируется на разные LLM от разных провайдеров.

Минусы:

архитектура сложнее, чем «один бот поверх базы»;
потребуется аккуратная интеграция с вашими источниками данных и настройка схем и отношений.

Если вы строите продукты вокруг TableQA, BI или корпоративных ассистентов, Multi-Agent-подходы вроде DataFactory — это уже не эксперимент, а рабочий кандидат для следующего поколения инструментов анализа данных.

Что открыли

Как исследовали

Что это меняет на практике

Что это значит для вас

Читайте также