Как научить ИИ не «галлюцинировать» на сложных картинках: исследователи придумали тренировать его против самого себя — VogueTech

Что открыли

Исследователи показали, что мультимодальные большие языковые модели — те же GPT, но с глазами — плохо справляются со сложными сценами. На картинке много объектов, мелкий текст, странные ракурсы — и модель начинает «галлюцинировать»: придумывать детали, которых нет.

Главная причина — ограниченные датасеты. Собрать и разметить ещё один гигантский набор картинок слишком дорого. Это ставит потолок на надёжность таких систем.

Команда предлагает выход: заставить модель самой генерировать для себя сложные задачи. Они создали большой противостоящий датасет AOT-SFT и новый подход AOT (Adversarial Opponent Training) — «обучение противником».

В AOT одна система-«атакующий» редактирует изображения, запутывая сцену, а вторая — мультимодальная LLM-защитник — пытается правильно ответить. Авторы показывают, что после такого самообучения защитник лучше понимает визуальные детали и реже врёт о том, чего нет на картинке. В аннотации не приводят конкретные проценты, но прямо заявляют: перцептивная устойчивость растёт, число галлюцинаций падает.

Как исследовали

Работа вышла на arXiv в разделе машинного обучения (cs.LG) под номером arXiv:2602.22227v1. Авторы не привязаны к конкретному продукту вроде GPT-5 или Claude 4 — речь о целом классе мультимодальных LLM.

Они сделали две вещи:

Собрали и сгенерировали крупный противостоящий датасет AOT-SFT. Это набор картинок с «злыми» модификациями: обрезки, замены объектов, мелкие вставки, визуальный шум.
Построили саму схему AOT — самоигру между двумя ролями:
- Attacker — система редактирования изображений. Она придумывает всё более сложные и разнообразные искажения.
- Defender — мультимодальная LLM, которая должна правильно описать сцену, ответить на вопросы или не согласиться с ложной подсказкой.

Attacker и Defender обучаются вместе. Нападающий ищет слабые места защитника и усиливает атаки. Защитник учится разруливать всё более странные картинки. Такой коэволюционный цикл создаёт динамический «учебный план» без ручной разметки миллионов новых изображений.

Авторы прогоняют серию экспериментов и показывают: после AOT-защитник устойчивее к визуальным атакам и даёт меньше галлюцинаций. При этом подход масштабируется: чем дольше идёт самоигра, тем богаче становится тренировочный набор.

Что это меняет на практике

Если идея приживётся в индустрии, мультимодальные ассистенты будут меньше ошибаться в реальных, «грязных» данных: плохие фото, скриншоты, камеры наблюдения.

Где это особенно полезно:

Медицина — анализ сложных медицинских изображений, где ошибка недопустима. Меньше ложных находок и выдуманных «опухолей».
Автопилоты и робототехника — распознавание объектов в плохую погоду, ночью, при бликах и помехах.
Финтех и безопасность — проверка документов по фото, борьба с поддельными скриншотами и визуальными фишинговыми атаками.
Офисные сценарии — когда вы просите ассистента «прочитать» скриншот, презентацию или фото доски, он реже будет додумывать текст или цифры.

До массовых продуктов ещё нужно пройти путь. AOT — исследовательская схема, а не готовый сервис. Её надо встроить в конкретные модели уровня GPT-5 или будущие версии Gemini, прогнать масштабное обучение и проверить на реальных нагрузках.

Реалистичный горизонт — несколько лет. Но сами идеи можно начать внедрять уже сейчас в лабораториях крупных AI-команд.

Что это значит для вас

Если вы пользуетесь мультимодальными ассистентами — загружаете им фото, скриншоты, документы — это исследование про ваши боли. Те самые моменты, когда модель уверенно описывает «красную кнопку» на картинке, где её нет.

Подход AOT даёт разработчикам способ системно давить такие ошибки. Не просто «подкрутить параметры», а регулярно подбрасывать модели сложные, злые примеры, где она привыкла ошибаться.

Плюсы для вас:

Больше доверия к ответам, когда речь о конкретных деталях на изображении.
Меньше сюрпризов в виде смело выдуманных объектов и надписей.
Потенциально — более честные ассистенты, которые признают: «я не вижу этого на картинке», вместо уверенной фантазии.

Минусы и риски:

Такие системы всё равно не станут безошибочными. Они просто будут лучше держаться под давлением сложных сцен.
Более агрессивное противостоящее обучение может сделать модель осторожнее — она начнёт чаще отказываться отвечать там, где раньше пыталась угадать.

Если вы строите продукты на базе мультимодальных LLM, AOT и AOT-SFT — сигнал: эпоха «одного большого датасета» заканчивается. Модели, которые умеют сами создавать себе сложные задачи и учиться на них, будут безопаснее и полезнее в реальных сценариях, где картинка почти никогда не бывает идеальной.