Anthropic обновила политику безопасного масштабирования ИИ: версия 3 и жёстче правила — VogueTech

Что произошло

Anthropic опубликовала третью версию своей Responsible Scaling Policy (RSP v3) — внутренней политики безопасного масштабирования ИИ. Это добровольный документ, который компания использует уже больше двух лет, чтобы снижать риск катастрофических сценариев от мощных моделей.

Первая версия появилась в сентябре 2023 года, когда крупные языковые модели были в основном чатами. Сейчас Claude умеет ходить в интернет, писать и запускать код, управлять компьютером и выполнять длинные цепочки действий без человека. Anthropic признаёт: вместе с новыми возможностями вырос и класс рисков, которых раньше просто не существовало.

RSP строится вокруг «если‑то»‑обязательств. Если модель переходит определённый порог возможностей — например, в биологии и химии, где уже можно помочь в создании оружия, — Anthropic обязуется включать новый, более жёсткий набор защит. Эти наборы компания описывает как AI Safety Levels (ASL).

ASL‑2 и ASL‑3 расписаны подробно. Для них Anthropic уже внедрила более строгие меры против злоупотреблений и кражи весов. Поздние уровни — ASL‑4 и выше — в первых версиях RSP остались почти пустыми: тогда ещё не было понятно, как будут выглядеть следующие поколения ИИ.

Сейчас Anthropic выпускает версию 3, усиливает рабочие части политики, дорабатывает слабые и добавляет новые механизмы прозрачности и подотчётности. В компании честно признают: часть первоначального плана сработала, часть — нет.

Контекст

RSP — это попытка Anthropic решить проблему «рисков из будущего». Политика пишется сегодня, а реальные угрозы могут появиться через год‑два, когда модели качественно изменятся. Пример за последние два с половиной года — переход от простого чата к системам, которые сами пишут код, запускают его и действуют автономно.

В основе RSP лежит теория изменений Anthropic:

Внутренний рычаг давления. Политика должна заставлять саму Anthropic не выпускать новые версии Claude, пока не выполнены требования по безопасности для соответствующего ASL. Это ускоряет разработку реальных защит, а не презентаций.
«Гонка вверх», а не вниз. Публичная RSP — сигнал другим игрокам. Anthropic рассчитывала, что OpenAI, Google DeepMind и остальные начнут публиковать похожие документы и соревноваться не только в мощности GPT‑5 или Gemini, но и в качестве защит. В идеале такие политики могли бы превратиться в отраслевой стандарт и лечь в основу законов об ИИ.
Точки консенсуса. Пороговые уровни возможностей — удобные моменты для коллективных действий. Если Claude или GPT‑5 научатся реально помогать в создании биологического оружия «под ключ», Anthropic хочет не только сама включить максимальные защиты, но и прийти к регуляторам с живыми примерами и требованием общих правил.
Подготовка к уровню, где одной Anthropic будет мало. На поздних ASL компания сама признаёт: защититься от злоупотреблений со стороны государств в одиночку почти нереально. План — к моменту появления таких моделей иметь уже настроенное взаимодействие с правительствами и международными структурами.

Anthropic оценивает результат трезво: внутренний рычаг сработал — RSP реально заставила команду строить более сложные фильтры и системы оценки рисков, особенно для ASL‑3, который фокусируется на угрозах в химии и биологии от игроков с ограниченными ресурсами. Но общий отраслевой консенсус и совместные действия пока продвигаются медленнее, чем компания рассчитывала в 2023 году.

Что это значит для вас

Если вы разрабатываете продукты на базе Claude или планируете внедрять мощные модели вроде будущих Claude‑поколений, GPT‑5 или следующего Gemini, RSP v3 — это сигнал, чего ждать дальше.

Больше ограничений при росте возможностей. По мере того как Claude будет лучше разбираться в биологии, химии, кибербезопасности и автономных действиях, Anthropic будет обязана включать новые барьеры. Это может означать более жёсткие фильтры, ограничения на доступ к определённым режимам или задержки в запуске самых мощных версий для широкой аудитории.
Прозрачные правила — плюс для B2B. Если вы строите продукт для финансов, медицины, госуслуг или критической инфраструктуры, наличие формализованных ASL упрощает комплаенс. Можно привязать внутренние политики к уровням Anthropic и объяснять регуляторам, какие именно риски компания закрывает.
Меньше «серой зоны» для экспериментов. Любите запускать ИИ‑агентов, которые сами ходят по сайтам, пишут скрипты и управляют облаком? По мере роста мощности моделей Anthropic будет всё жёстче смотреть на сценарии, где агент может причинить реальный вред. Придётся внимательнее думать о ограничениях и логировании действий.
Для стартапов и корпораций — пример, который придётся копировать. Если вы строите собственные крупные модели, без публичной политики безопасного масштабирования скоро будет тяжело: инвесторы, клиенты и регуляторы начнут спрашивать, на каком «ASL» вы живёте. RSP Anthropic можно использовать как шаблон: пороги возможностей, связанные с ними меры, сценарии, когда вы добровольно тормозите релиз.
Для разработчиков и исследователей — сигнал о карьере. Anthropic вкладывается в сложные системы оценки рисков: от химии и биологии до защиты весов модели. Это создаёт спрос на специалистов по безопасности ИИ, которые понимают и технологии, и регуляторику.

Плюс RSP v3 в том, что Anthropic не притворяется всесильной и прямо пишет: на поздних этапах без государств и международных соглашений компания не справится. Минус — никакая добровольная политика не гарантирует, что остальные игроки будут вести себя так же осторожно. Если вы строите бизнес на мощных ИИ‑системах, придётся учитывать оба фактора: и реальные ограничения от Anthropic, и риск, что кто‑то другой выпустит более опасную модель без подобных тормозов.