Как научить ИИ отличать выполнимое действие от глупости: контрастные миры для роботов и агентов — VogueTech

Что открыли

Команда исследователей предложила новый способ учить большие языковые модели оценивать, можно ли реально выполнить действие в текущей ситуации. Они назвали подход Contrastive World Model (CWM).

Главная идея: модель не просто ставит оценку каждому действию отдельно, а учится сравнивать похожие варианты и отталкивать физически неверные от правильных. Для этого она смотрит на «жесткие» негативные примеры — почти правильные команды, где одна деталь ломает физический смысл.

На бенчмарке ScienceWorld CWM показала ощутимый прирост по сравнению с классическим supervised fine-tuning (SFT):

на 605 парах сложных негативных примеров точность Precision@1 выросла на 6,76 процентных пункта для «минимальных правок» — когда меняется всего одно слово, но результат в мире становится другим;
площадь под ROC-кривой (AUC-ROC) выросла с 0,906 до 0,929.

Во втором эксперименте исследователи посмотрели, как модель ведет себя «вживую» — когда агент решает задачи и нужно ранжировать правильное действие среди всех допустимых в окружении. Под стрессом, когда ситуация выходит за рамки обучающих данных, CWM держит более безопасный зазор: -2,39 против -3,96 у SFT. Это значит, что «золотое» действие чаще оказывается ближе к верху списка и агент реже делает физически нелепые шаги.

Как исследовали

Исследователи взяли крупную языковую модель и дообучили её как «оценщик действий» в среде ScienceWorld. Это симулятор научных задач, где агент взаимодействует с объектами, как в текстовой игре: можно брать, перемещать, нагревать, смешивать предметы и получать последствия.

Для обучения CWM команда использовала контрастную цель InfoNCE. Суть: модель получает правильное действие и набор похожих, но физически неверных команд. Её задача — отодвинуть неверные в «пространстве оценок» и подтянуть правильное.

Негативные примеры подбирали не случайно. Исследователи делали «хард-майнинг»: искали варианты, которые звучат правдоподобно, но нарушают физику среды. Например, поменять один глагол или объект так, чтобы действие стало невозможным.

Дальше команда провела два типа тестов. Первый — офлайн-оценка на 605 сложных пар действий с минимальными правками. Второй — онлайн-характеризация фильтра: во время реального прохождения задач агент с CWM и агент с SFT ранжировали возможные действия, и исследователи смотрели, насколько высоко поднимается правильное.

Что это меняет на практике

Главная боль разработчиков роботов и эмбодид-агентов сейчас — не только придумать план, но и понять, какие шаги вообще можно сделать. Языковые модели часто выдают «разумные» на вид команды, которые физически невыполнимы. Например, попросить поднять то, чего робот не видит, или нагреть объект в несуществующей микроволновке.

CWM адресует именно этот узкий, но критичный слой — фильтр выполнимости действий до планирования. Если такой модуль работает лучше, агент:

реже застревает в тупике из-за невозможных команд;
меньше портит оборудование и окружение, потому что не пытается сделать физический бред;
использует планировщик и LLM только для тех действий, которые реально доступны.

На стороне бизнеса это важно для:

разработчиков бытовых и складских роботов;
создателей игровых и симуляционных агентов;
компаний, которые строят ассистентов в 3D-средах и VR.

До массовых продуктов ещё есть путь: статья — это исследовательский прототип, без открытого промышленного кода и интеграций с реальными роботами. Но сам подход контрастного обучения с «жесткими» негативами довольно легко перенести в другие среды, если у вас есть симулятор и разметка действий.

Что это значит для вас

Если вы уже используете LLM-агентов — например, связку GPT-4/5 с симулятором или роботом — вам почти наверняка нужен фильтр выполнимости действий. Сейчас его часто реализуют на правилах или простом SFT, который не умеет тонко различать почти одинаковые команды.

Идея CWM даёт понятный чек-лист для вашей инфраструктуры:

собирайте пары «правильное действие / почти правильное, но физически неверное»;
дообучайте вашу модель не только предсказывать метку, но и ранжировать такие пары через контрастную цель;
отдельно тестируйте минимальные правки — смену одного слова, предмета или параметра действия.

Если вы — продуктовый менеджер или исследователь, который отвечает за надёжность агентов, имеет смысл заложить подобный контрастный модуль в архитектуру: это не делает агента умнее во всём, но заметно снижает риск «физических глупостей».

Если вы просто пользуетесь голосовыми ассистентами и чат-ботами, прямого эффекта пока не увидите. Но когда Siri, Google Assistant или ассистенты в умном доме начнут уверенно управлять техникой и роботами, именно такие методы будут стоять между вашей посудомойкой и странными командами от ИИ.