- Дата публикации
Google научила ИИ-агентов сотрудничать, бросив их против непредсказуемых соперников
Что открыли
Команда Paradigms of Intelligence из Google показала: многоагентные системы на базе ИИ лучше сотрудничают, если учатся в среде с непредсказуемыми противниками.
Исследователи использовали классическую задачу Iterated Prisoner’s Dilemma (дилемма заключённого с повторениями). В ней каждый участник выбирает: сотрудничать или предать партнёра ради мгновенной выгоды.
Обычно ИИ-агенты в такой игре зацикливаются на максимизации личной выгоды. Это ломает коллективный результат и приводит к постоянным «предательствам».
Google обучила агентов методом Predictive Policy Improvement (PPI) в окружении со смешанным пулом соперников. Там были и обучающиеся агенты, и статические стратегии.
Результат: агенты пришли к устойчивой кооперации. Им не пришлось жёстко фиксировать роли, заранее прописывать протоколы или вшивать знания о внутренней логике других игроков.
Ключевой эффект — агенты научились вырабатывать универсальные стратегии, которые продолжают работать с новыми партнёрами и в меняющейся среде.
Как исследовали
Google не полагалась на ручную координацию, как это делают фреймворки вроде LangGraph, где разработчик прописывает логику переходов между шагами.
Вместо этого команда построила среду с разнообразным набором противников. Каждый из них использовал свою стратегию и имел свои параметры поведения.
Агентов обучали с помощью стандартных алгоритмов обучения с подкреплением, например GRPO. Они принимали решения, опираясь только на историю собственных взаимодействий.
Контекстное окно не расширяли. Исследователи не заливали в систему больше данных, а заставили агентов эффективнее использовать уже доступную информацию.
За счёт смешанного пула противников PPI постоянно «подкидывал» агентам новые стили поведения. Им приходилось подстраивать свои стратегии в реальном времени.
В итоге система не зависела от одного фиксированного типа соперника и не ломалась при смене партнёра по взаимодействию.
Что это меняет на практике
Для корпоративных многоагентных систем это важный сдвиг. Вместо жёстко прописанных правил взаимодействия можно проектировать среду, где агенты сами учатся кооперации.
Разработчик перестаёт быть «писателем регламентов» и превращается в архитектора среды обучения. Он задаёт рамки, цели и типы противников, а не каждое правило вручную.
Google подчёркивает, что методика масштабируема и вычислительно эффективна. Это делает её пригодной для больших многоагентных систем в компаниях.
Плюсы: меньше ручного кода координации, больше устойчивости к неожиданным сценариям и новым участникам. Система не завязана на одном составе агентов.
Минусы: результат сильно зависит от качества среды обучения. Если пул противников бедный или однообразный, стратегии агентов тоже будут ограниченными.
До массовых продуктов ещё один шаг: нужно перенести подход из абстрактной дилеммы заключённого в реальные задачи — от автоматизации процессов до сложных ИИ-оркестраторов.
Что это значит для вас
Если вы уже работаете с многоагентными системами на базе LLM, эта работа от Google — сигнал сменить фокус. Меньше ручной логики, больше продуманной среды обучения.
Фреймворки вроде LangGraph по-прежнему полезны, когда нужно жёстко контролировать сценарии. Но для живых, меняющихся процессов подход PPI выглядит перспективнее.
Для разработчиков это шанс тратить меньше времени на прописывание ветвлений и больше — на дизайн целей, наград и типов агентов в системе.
Для продуктовых команд это намёк, каким будет следующий этап эволюции ИИ-сервисов: не один «умный ассистент», а целые коллективы агентов, которые умеют сотрудничать.
Для пользователей это может означать более согласованную работу ИИ-инструментов: меньше конфликтов между подсистемами и более предсказуемый общий результат.
Сроки зависят от того, как быстро индустрия перенесёт PPI-подход из исследовательских прототипов в реальные бизнес-сценарии. Но направление уже обозначено довольно чётко.