- Дата публикации
Как научить ИИ отличать выполнимое действие от глупости: контрастные миры для роботов и агентов
Что открыли
Команда исследователей предложила новый способ учить большие языковые модели оценивать, можно ли реально выполнить действие в текущей ситуации. Они назвали подход Contrastive World Model (CWM).
Главная идея: модель не просто ставит оценку каждому действию отдельно, а учится сравнивать похожие варианты и отталкивать физически неверные от правильных. Для этого она смотрит на «жесткие» негативные примеры — почти правильные команды, где одна деталь ломает физический смысл.
На бенчмарке ScienceWorld CWM показала ощутимый прирост по сравнению с классическим supervised fine-tuning (SFT):
- на 605 парах сложных негативных примеров точность Precision@1 выросла на 6,76 процентных пункта для «минимальных правок» — когда меняется всего одно слово, но результат в мире становится другим;
- площадь под ROC-кривой (AUC-ROC) выросла с 0,906 до 0,929.
Во втором эксперименте исследователи посмотрели, как модель ведет себя «вживую» — когда агент решает задачи и нужно ранжировать правильное действие среди всех допустимых в окружении. Под стрессом, когда ситуация выходит за рамки обучающих данных, CWM держит более безопасный зазор: -2,39 против -3,96 у SFT. Это значит, что «золотое» действие чаще оказывается ближе к верху списка и агент реже делает физически нелепые шаги.
Как исследовали
Исследователи взяли крупную языковую модель и дообучили её как «оценщик действий» в среде ScienceWorld. Это симулятор научных задач, где агент взаимодействует с объектами, как в текстовой игре: можно брать, перемещать, нагревать, смешивать предметы и получать последствия.
Для обучения CWM команда использовала контрастную цель InfoNCE. Суть: модель получает правильное действие и набор похожих, но физически неверных команд. Её задача — отодвинуть неверные в «пространстве оценок» и подтянуть правильное.
Негативные примеры подбирали не случайно. Исследователи делали «хард-майнинг»: искали варианты, которые звучат правдоподобно, но нарушают физику среды. Например, поменять один глагол или объект так, чтобы действие стало невозможным.
Дальше команда провела два типа тестов. Первый — офлайн-оценка на 605 сложных пар действий с минимальными правками. Второй — онлайн-характеризация фильтра: во время реального прохождения задач агент с CWM и агент с SFT ранжировали возможные действия, и исследователи смотрели, насколько высоко поднимается правильное.
Что это меняет на практике
Главная боль разработчиков роботов и эмбодид-агентов сейчас — не только придумать план, но и понять, какие шаги вообще можно сделать. Языковые модели часто выдают «разумные» на вид команды, которые физически невыполнимы. Например, попросить поднять то, чего робот не видит, или нагреть объект в несуществующей микроволновке.
CWM адресует именно этот узкий, но критичный слой — фильтр выполнимости действий до планирования. Если такой модуль работает лучше, агент:
- реже застревает в тупике из-за невозможных команд;
- меньше портит оборудование и окружение, потому что не пытается сделать физический бред;
- использует планировщик и LLM только для тех действий, которые реально доступны.
На стороне бизнеса это важно для:
- разработчиков бытовых и складских роботов;
- создателей игровых и симуляционных агентов;
- компаний, которые строят ассистентов в 3D-средах и VR.
До массовых продуктов ещё есть путь: статья — это исследовательский прототип, без открытого промышленного кода и интеграций с реальными роботами. Но сам подход контрастного обучения с «жесткими» негативами довольно легко перенести в другие среды, если у вас есть симулятор и разметка действий.
Что это значит для вас
Если вы уже используете LLM-агентов — например, связку GPT-4/5 с симулятором или роботом — вам почти наверняка нужен фильтр выполнимости действий. Сейчас его часто реализуют на правилах или простом SFT, который не умеет тонко различать почти одинаковые команды.
Идея CWM даёт понятный чек-лист для вашей инфраструктуры:
- собирайте пары «правильное действие / почти правильное, но физически неверное»;
- дообучайте вашу модель не только предсказывать метку, но и ранжировать такие пары через контрастную цель;
- отдельно тестируйте минимальные правки — смену одного слова, предмета или параметра действия.
Если вы — продуктовый менеджер или исследователь, который отвечает за надёжность агентов, имеет смысл заложить подобный контрастный модуль в архитектуру: это не делает агента умнее во всём, но заметно снижает риск «физических глупостей».
Если вы просто пользуетесь голосовыми ассистентами и чат-ботами, прямого эффекта пока не увидите. Но когда Siri, Google Assistant или ассистенты в умном доме начнут уверенно управлять техникой и роботами, именно такие методы будут стоять между вашей посудомойкой и странными командами от ИИ.