Apple показала, почему фильтры не спасут нас от опасного ИИ — VogueTech

Что открыли

Исследователи Apple Machine Learning Research разбираются с неудобным вопросом: можно ли сделать ИИ безопасным, просто навесив на него фильтры? Ответ у них довольно жёсткий: в общем случае — нет.

Команда рассматривает большие языковые модели (LLM) вроде GPT-5 или Claude 4 и показывает два ключевых результата.

Первое: существуют такие LLM, для которых невозможно построить эффективный фильтр для промптов. Злоумышленник может сконструировать "адверсариальный" запрос, который заставит модель генерировать вредный контент. При этом этот запрос выглядит для любого быстрого фильтра неотличимым от безобидного. То есть фильтр не может вычислительно различить опасный и безопасный промпт.

Второе: есть естественные сценарии, где фильтрация уже сгенерированного текста вычислительно неразрешима. То есть никакой разумно быстрый алгоритм не сможет гарантированно отсеивать опасные ответы.

Все эти разделения авторы доказывают при стандартных криптографических предположениях о сложности задач. На основе этих результатов они формулируют общий вывод: нельзя отделить "интеллект" системы от её "суждения". Безопасность нельзя навесить сверху — её нужно встраивать в саму архитектуру и веса модели.

Как исследовали

Команда Apple работает не с конкретной "железной" моделью вроде GPT-5, а с абстрактными LLM в терминах теории вычислений и криптографии.

Они формализуют две точки вмешательства:

Фильтрация промпта до генерации — когда, например, интерфейс чат-бота проверяет ваш запрос до того, как отправить его в модель.
Фильтрация ответа после генерации — когда над моделью стоит ещё один модуль-модератор.

Дальше исследователи строят математические конструкции LLM и фильтров и доказывают: если верить криптографическим гипотезам о сложности (тем же, на которых держатся привычные нам шифрования и протоколы), то:

существуют LLM, где никакой эффективный фильтр промптов не может отличить вредный запрос от безвредного;
существуют естественные задачи, где послефактум-фильтрация ответа становится вычислительно неосуществимой.

Они также рассматривают "смягчённые" варианты: неполные фильтры, вероятностные методы, допуски на ошибки. И показывают, что и там встают серьёзные вычислительные барьеры.

Что это меняет на практике

Для разработчиков LLM вроде GPT-5, Claude 4 или будущих моделей Apple вывод неприятный: одними внешними фильтрами безопасность не закрыть.

Индустрия сейчас часто строит безопасность по схеме "чёрного ящика": есть мощная модель, а поверх неё — слой правил, модерации и контент-фильтров. Исследование Apple показывает, что у такого подхода есть фундаментальный потолок. Не из-за кривых реализаций, а из-за самой теории вычислений.

Это значит, что крупным игрокам придётся больше инвестировать в:

обучение моделей на "выравненных" датасетах;
встроенные механизмы суждения внутри самой нейросети;
совместный дизайн архитектуры, обучения и политики безопасности.

Простое "прикрутим ещё один фильтр" не сработает, когда модели станут ещё умнее и изобретательнее. Особенно в сценариях, где противник мотивирован и готов тратить время на поиск лазеек в промптах.

Что это значит для вас

Если вы уже пользуетесь ChatGPT, Claude или другими ассистентами, это исследование объясняет, почему они иногда странно цензурят безобидный текст, а где-то наоборот пропускают сомнительные ответы.

Фильтры, которые стоят перед и после моделей, по определению ограничены. Они не могут идеально отличить вредное от полезного, если сами не обладают тем же уровнем "понимания", что и модель. А сделать такой фильтр вычислительно слишком дорого или невозможно.

Для обычного пользователя это значит две вещи:

не стоит полностью полагаться на "защиту от дурака" в интерфейсе — у неё есть математические пределы;
в ближайшие годы ИИ-сервисы будут сильнее уходить в сторону встроенной этики и ограничений внутри самих моделей. Это может сделать ответы более безопасными, но и более консервативными.

Если вы строите продукт на базе GPT-5, Claude 4 или будущих моделей Apple, нельзя рассчитывать только на внешний модерационный слой. Придётся думать о данных для обучения, настройке самой LLM и о том, как вы интегрируете её в бизнес-процессы. Иначе у вас останется красивый интерфейс поверх чёрного ящика, который в критический момент может повести себя неожиданно.