Социнженерия против ИИ: как OpenAI учит агентов сопротивляться манипуляциям — VogueTech

Что появилось / что изменилось

OpenAI опубликовала исследование о новой тактике атак на ИИ-агентов. Атаки типа prompt injection теперь в 50% случаев используют методы социальной инженерии, имитируя рабочие поручения. Эффективность таких атак, по данным тестов, достигает 50% успеха даже против современных моделей. Простые фильтры входных данных ("AI firewalling") с этим не справляются. Ключевое изменение — смещение фокуса с "обнаружения зловредной строки" на "ограничение последствий взлома".

Как это работает

OpenAI предлагает смотреть на ИИ-агента как на сотрудника службы поддержки, который работает во враждебной среде. Задача — не идеально отфильтровать каждый ввод, а ограничить полномочия агента, чтобы даже успешная манипуляция не нанесла критического ущерба. Это похоже на принцип минимальных привилегий в IT-безопасности, но применённый к языковым моделям. В основе подхода — архитектурные изменения в дизайне агентов, которые жёстко ограничивают их права на выполнение действий (например, отправку данных, финансовых операций) без явного подтверждения пользователя.

Что это значит для вас

Если вы используете ИИ-агентов для работы с почтой, документами или веб-поиском, вы в зоне риска. Атака может выглядеть как обычное деловое письмо с вложенной инструкцией для вашего ассистента. Практический совет: настройте агентов на выполнение только конкретных, узких задач и отключите авторизацию на опасные действия (платежи, отправка данных на внешние адреса). Не давайте агенту полный доступ к вашей почте или мессенджерам без строгих ограничений. OpenAI прямо заявляет: защита только на уровне фильтрации входящих промптов не работает. Вам нужно пересматривать архитектуру ваших автоматизаций.

Место на рынке

OpenAI не предоставила сравнительных цифр по эффективности своей методологии против решений конкурентов вроде Anthropic Claude или Google Gemini. Однако сам подход — защита через ограничение возможностей агента, а не через детектирование — является фундаментальным сдвигом. Он ставит под вопрос эффективность многих коммерческих решений "AI-брандмауэров", которые пытаются только классифицировать вводы. Пока что у OpenAI нет готового продукта или API, это скорее framework для разработчиков. В гонке безопасных агентов теперь важны не только качество модели, но и продуманность её "полномочий".

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также