- Дата публикации
DataFactory: как команда ИИ-агентов учится отвечать на сложные вопросы к таблицам
Что открыли
Исследователи предложили DataFactory — многоагентную систему для работы с табличными данными, которая снижает галлюцинации и лучше справляется со сложными вопросами.
Команда тестировала DataFactory на трёх известных бенчмарках: TabFact, WikiTableQuestions и FeTaQA. В каждом случае система опиралась на большие языковые модели от пяти разных провайдеров — всего восемь LLM.
На цифрах это выглядит так:
- +20,2% к точности на TabFact по сравнению с базовыми подходами;
- +23,9% к точности на WikiTableQuestions;
- в многоагентной конфигурации прирост к одноагентным вариантам: +5,5% на TabFact, +14,4% на WikiTableQuestions и +17,1% по метрике ROUGE-2 на FeTaQA.
Эффект авторы оценивают как «существенный»: Cohen’s d больше 1. То есть это не косметический выигрыш, а заметный сдвиг в качестве ответов.
Как исследовали
Команда построила многоагентный фреймворк вокруг трёх ролей:
- Data Leader — «координатор», который управляет ходом рассуждений и использует подход ReAct: сначала думает, потом вызывает инструменты, потом снова думает.
- Database-команда — отвечает за структурированные запросы к табличным данным.
- Knowledge Graph-команда — превращает данные в граф знаний и умеет рассуждать по связям между сущностями.
Ключевая идея — автоматически переводить таблицы в граф знаний. Для этого авторы формализовали функцию отображения (T: D \times S \times R \to G), которая берёт данные (D), схему (S), отношения (R) и строит граф (G).
В отличие от жёстких конвейерных схем, где агенты идут строго по шагам, DataFactory позволяет агентам «советоваться» друг с другом на естественном языке и перестраивать план по ходу работы. Плюс авторы добавили контекст-инжиниринг: в промпты подмешиваются исторические паттерны и доменные знания, чтобы снизить галлюцинации и повысить точность.
Что это меняет на практике
Главная боль при работе LLM с таблицами — длина контекста и надёжность ответов. Модели не могут держать в голове большие датасеты, путаются в многошаговой логике и нередко уверенно выдают выдумки.
DataFactory решает это за счёт разделения труда:
- сложный вопрос разбивается на подзадачи;
- часть запросов идёт в «классическую» базу данных;
- часть — в граф знаний, где проще проследить связи и многошаговые выводы.
Для бизнеса это значит более честный и воспроизводимый анализ данных: отчёты, дашборды, аналитические запросы можно прогонять через систему, которая не только «угадывает», но и строит структурный путь к ответу.
Потенциальные сценарии:
- аналитика в крупных компаниях с разрозненными таблицами и отчётами;
- BI-платформы, которые хотят добавить «чат с данными» без потери точности;
- внутренние ассистенты для дата-команд, которым нужно быстро проверить сложные гипотезы.
До готовых коммерческих продуктов ещё один шаг: нужно упаковать фреймворк в сервис, продумать безопасность и интеграции с реальными хранилищами. Но архитектура уже ориентирована на enterprise-кейсы — совместное использование SQL-подобных запросов и графов знаний.
Что это значит для вас
Если вы уже пользуетесь чат-ботами для вопросов к данным — от дашбордов до CSV-файлов, — подобные системы напрямую влияют на качество ваших ответов.
DataFactory показывает, куда движутся следующие версии инструментов:
- один ассистент меняется на «команду» специализированных агентов;
- ответы всё чаще будут опираться не только на текст, но и на базы данных и графы знаний;
- снижение галлюцинаций достигается не магией, а чёткой архитектурой и контекст-инжинирингом.
Плюсы подхода:
- лучше работает с длинными и сложными вопросами к таблицам;
- даёт ощутимый прирост точности (до +23,9% на публичных бенчмарках);
- масштабируется на разные LLM от разных провайдеров.
Минусы:
- архитектура сложнее, чем «один бот поверх базы»;
- потребуется аккуратная интеграция с вашими источниками данных и настройка схем и отношений.
Если вы строите продукты вокруг TableQA, BI или корпоративных ассистентов, Multi-Agent-подходы вроде DataFactory — это уже не эксперимент, а рабочий кандидат для следующего поколения инструментов анализа данных.