OpenAI научила GPT-5 не поддаваться на уловки и лучше слушаться разработчиков — VogueTech

Что открыли

Исследователи OpenAI создали набор данных для обучения, который значительно улучшает поведение больших языковых моделей (LLM) в конфликтных ситуациях. Речь идёт о приоритете инструкций: когда системная команда разработчика противоречит запросу пользователя или вредоносной «инъекции». Новый набор данных IH-Challenge обучил модель GPT-5-Mini правильно разрешать такие конфликты. После дообучения модель стала на 10% устойчивее к различным атакам — её результаты выросли с 84,1% до 94,1% в 16 тестах. Количество небезопасных ответов упало с 6,6% до 0,7%. При этом общая полезность модели в стандартных тестах безопасности не пострадала.

Как исследовали

Команда OpenAI использовала метод обучения с подкреплением (reinforcement learning) на специально созданном датасете IH-Challenge. В процессе обучения применялась генерация противоречивых примеров (adversarial examples) в реальном времени. Работа велась с моделью GPT-5-Mini. Сам датасет уже опубликован и доступен на платформе Hugging Face для дальнейших исследований. Результаты проверяли на 16 различных бенчмарках, включая тесты на соответствие, выход за пределы тренировочных данных и «красное командование» (имитацию атак людьми).

Что это меняет на практике

Это снижает риски при использовании продвинутых ИИ-ассистентов. Модель становится лучше защищена от взлома (jailbreak), утечки системного промпта и вредоносных инструкций, которые могут заставить агента выполнять опасные действия. Для индустрии это шаг к созданию более надёжных и управляемых ИИ-систем, которые чётко следуют иерархии: сначала — правила разработчика, потом — запрос пользователя. Технология может относительно быстро дойти до продуктов, так как это метод дообучения существующих моделей. В первую очередь выиграют корпоративные клиенты и разработчики, которым критически важна безопасность.

Что это значит для вас

Если вы используете или планируете использовать API OpenAI или продукты на базе их моделей, вы получите более устойчивых ассистентов. Они будут меньше «сбиваться с пути» из-за хитрых или противоречивых запросов. Для разработчиков это хорошие новости: опубликованный датасет позволяет экспериментировать и улучшать безопасность собственных решений. Однако метод — не панацея. Он решает конкретную проблему конфликта инструкций, но не все виды уязвимостей. И, как отмечают авторы, обучение такой иерархии — сложная задача, где модель может пойти по лёгкому пути и начать слишком часто отказываться отвечать (overrefusing). Работа продолжается.

Что открыли

Как исследовали

Что это меняет на практике

Что это значит для вас

Читайте также