- Дата публикации
ИИ учится генерировать научные идеи по графу соавторов, а не «из головы»
Что открыли
Исследователи предложили систему GYWI, которая помогает большим языковым моделям генерировать научные идеи не вслепую, а опираясь на реальные связи между учёными и их работами.
GYWI объединяет два источника знаний:
- граф соавторов и их публикаций;
- классический retrieval-augmented generation (RAG), который подбирает релевантные тексты.
Система строит вокруг автора и его научного круга внешний knowledge base, а потом подаёт его в LLM как управляемый контекст с чётким «маршрутом вдохновения» — от конкретной статьи до новой гипотезы.
Исследователи оценивали идеи по пяти параметрам: новизна, реализуемость, ясность, релевантность и значимость. В тестах GYWI стабильно обошёл стандартные LLM без такой надстройки по ключевым метрикам: новизне, надёжности и релевантности.
Как исследовали
Авторы собрали датасет на базе arXiv за 2018–2023 годы. На этих данных они построили авторо-центричный граф: кто с кем писал статьи, на какие работы ссылался, какие темы развивал.
Дальше они разработали два компонента:
- Алгоритмы выборки «источников вдохновения» из графа — какие авторы и статьи попадут в контекст.
- Гибридный поиск: классический RAG плюс GraphRAG. Первый даёт глубину по конкретной теме, второй — ширину по сети авторов и направлений.
Система формирует «гибридный контекст» и передаёт его в LLM. Поверх этого работает стратегия оптимизации промптов с элементами обучения с подкреплением: модель сама дорабатывает формулировки запросов, чтобы улучшить качество идей по заданным критериям.
Для оценки авторы использовали:
- автоматический тест в формате multiple-choice;
- оценку другими LLM;
- человеческую экспертизу;
- анализ в семантическом пространстве (как далеко идеи уходят от исходных работ).
В экспериментах участвовали GPT-4o, DeepSeek-V3, Qwen3-8B и Gemini 2.5. На всех этих моделях надстройка GYWI дала выигрыш по новизне, надёжности и релевантности идей.
Что это меняет на практике
Главная проблема ИИ-«соавторов» в науке — они часто придумывают идеи в вакууме. Без привязки к конкретным авторам, школам и уже опубликованным линиям исследований.
GYWI решает это за счёт трёх вещей:
- ИИ видит не только тексты, но и структуру научного сообщества.
- Можно явно контролировать, из чьих работ и чьей «научной тусовки» он черпает вдохновение.
- Появляется прозрачный путь: от какой статьи и какого автора родилась новая гипотеза.
Это важно для лабораторий, R&D-отделов в корпорациях и стартапов, которые делают свои ассистенты для учёных. Система не просто генерирует «идею», а показывает, как она логично вытекает из существующей литературы и связей между исследователями.
До готовых продуктов один шаг: нужно прикрутить GYWI-подобный слой к корпоративным базам публикаций, патентов и внутренних отчётов. Технология уже протестирована на реальном массиве arXiv за пять лет, так что это не чистая теория.
Минусы тоже есть. Нужна качественная разметка авторов и их связей, а это боль для компаний с раздутыми и плохо структурированными архивами. Плюс система всё ещё опирается на существующие LLM, со всеми их галлюцинациями и bias.
Что это значит для вас
Если вы уже пользуетесь GPT-4o, DeepSeek-V3, Qwen3-8B или Gemini 2.5 для поиска идей, эта работа показывает: можно выжать из тех же моделей больше, если дать им правильный контекст.
Главный вывод: будущее научных ассистентов — не в «более больших моделях», а в умной обвязке вокруг них. В вашем университете или компании можно построить свой GYWI-подобный слой поверх локального корпуса статей и авторов.
Для исследователей это шанс получать идеи, которые:
- лучше встроены в вашу область;
- опираются на реальных коллег и их работы;
- легче защищаются перед рецензентами, потому что путь от литературы до гипотезы прозрачен.
Для продуктовых команд и AI-стартапов это сигнал: голый RAG уже не хватает. Придётся учитывать графы людей и их взаимодействий, а не только тексты. Именно там сейчас основной задел на качество научных и R&D-ассистентов.