- Дата публикации
OpenAI учит ChatGPT лучше замечать риск в «долгих» и повторяющихся разговорах
Что нового
OpenAI обновила систему безопасности ChatGPT, чтобы она лучше замечала риск не только в одном сообщении, но и в длинных и повторяющихся разговорах.
Ключевые изменения:
-
Распознавание риска по контексту:
- ChatGPT теперь учитывает не только последний запрос, но и предыдущие реплики, где могли появляться первые тревожные сигналы.
- Фокус — острые сценарии: суицид, самоповреждения, вред другим людям.
-
Безопасные ответы в сложных диалогах выросли по метрикам OpenAI:
- В длинных диалогах в рамках одной беседы:
- случаи суицида и самоповреждений: рост корректных безопасных ответов на 50%;
- сценарии вреда другим людям: рост на 16%.
- В нескольких беседах подряд (на GPT‑5.5 Instant, текущая дефолтная модель в ChatGPT):
- вред другим людям: рост безопасных ответов на 52%;
- суицид и самоповреждения: рост на 39%.
- В длинных диалогах в рамках одной беседы:
-
Safety summaries (краткие «безопасные» конспекты):
- Специальная модель делает короткие заметки о важном контексте риска из предыдущих разговоров.
- Эти заметки используются только для задач безопасности, а не для персонализации.
- Оценка по внутренним метрикам OpenAI (более 4000 проверок):
- релевантность безопасности: 4,93 из 5;
- фактичность: 4,34 из 5.
-
Фокус на минимальное влияние на обычные диалоги:
- В тестах OpenAI пользователи не заметили разницы в качестве ответов в повседневных темах с включёнными и выключенными safety summaries.
-
Участие экспертов по психическому здоровью:
- OpenAI консультировалась с психиатрами и психологами из Global Physicians Network.
- Они помогали определить, когда создавать safety summary, какой объём прошлого контекста учитывать и как долго опираться на него.
Как это работает
OpenAI добавила к ChatGPT несколько новых технических слоёв, которые работают поверх основной языковой модели (например, GPT‑5.5 Instant).
1. Анализ контекста внутри одной беседы
Раньше безопасность в основном смотрела на отдельный запрос: если сообщение явно опасное — ChatGPT отказывался или деэскалировал. Теперь:
- ChatGPT анализирует последовательность реплик в диалоге.
- Если в начале беседы были тревожные сигналы (упоминания самоповреждений, агрессии, сильного дистресса), а потом появляется вроде бы «обычный» вопрос, модель учитывает, как прошлые сообщения меняют смысл нового запроса.
- В ответах ChatGPT может:
- мягко деэскалировать разговор;
- отказаться от детализированных инструкций, которые могут привести к вреду;
- перенаправить к более безопасным темам или предложить обратиться к людям и службам поддержки.
Это расширение уже существующего подхода OpenAI с «safe completion» — когда система не просто блокирует весь ответ, а вырезает опасные части и даёт безопасную альтернативу.
2. Safety summaries: краткая «память» о риске между беседами
Отдельная проблема — когда риск «размазан» по нескольким сессиям:
- В одной беседе пользователь пишет что-то тревожное, но без прямых просьб.
- В другой — задаёт технический или на вид нейтральный вопрос, который становится опасным только в связке с прошлым контекстом.
Чтобы не терять такие сигналы, OpenAI добавила слой safety summaries:
- Отдельная модель, обученная на задачах safety reasoning, формирует короткие, фактологические заметки о важных сигналах риска.
- Эти заметки:
- узко сфокусированы на темах безопасности (суицид, самоповреждения, вред другим);
- хранятся ограниченное время;
- используются только, когда есть серьёзная потенциальная угроза.
- ChatGPT при ответе может заглянуть в такой summary и усилить осторожность, если видит, что текущий запрос логически продолжает опасную линию.
Важно: safety summaries не работают как «вечная память» или персонализация. Это краткоживущий слой контекста, который включается только вокруг высокорисковых сценариев.
3. Политики и обучение с участием экспертов
OpenAI обновила политики безопасности и обучающие данные для ChatGPT:
- Психиатры, психологи, эксперты по суицидальной и аутоагрессивной поведению помогали сформулировать:
- какие формулировки и паттерны поведения считать тревожными;
- на какой дистанции по времени прошлые сообщения всё ещё важны;
- когда безопаснее усилить осторожность, а когда — не драматизировать обычный запрос.
- На основе этих правил OpenAI дообучила модель, чтобы она:
- лучше распознавала постепенное нарастание риска;
- корректнее деэскалировала разговоры;
- чаще предлагала ресурсы помощи и поддержку вместо технических инструкций.
Что это значит для вас
Если вы используете ChatGPT как «собеседника» или для эмоциональной разгрузки
- ChatGPT стал чувствительнее к тому, что вы пишете на протяжении времени, а не только в одном сообщении.
- Если вы пишете о:
- суицидальных мыслях,
- самоповреждениях,
- желании причинить вред другим, он чаще будет:
- мягко останавливать опасные сценарии;
- не давать конкретных инструкций, если запрос может привести к вреду;
- предлагать обратиться к близким или специалистам и давать информацию о кризисных ресурсах (там, где это возможно по региону).
Важно понимать: ChatGPT не заменяет психотерапевта или врача. Это всё ещё языковая модель, а не медицинский сервис. Она может поддержать, подсказать, как сформулировать мысли, но не поставить диагноз и не провести терапию.
Если вы используете ChatGPT для работы и исследований
- В обычных деловых задачах (код, тексты, аналитика, исследования) поведение ChatGPT практически не меняется.
- Внутренние тесты OpenAI показывают, что пользователи не предпочитают ответы без safety summaries по сравнению с ответами с ними — то есть качество в бытовых и рабочих задачах остаётся на том же уровне.
- Но если ваши запросы затрагивают чувствительные темы:
- насилие,
- криминал,
- вред себе или другим, вы чаще получите отказ в деталях и более осторожную формулировку.
Если вы строите продукт поверх ChatGPT
- Для разработчиков, которые интегрируют ChatGPT в свои сервисы (чат-боты, помощники, образовательные продукты), это значит:
- меньше риска, что ваш продукт даст прямые вредоносные инструкции в сценариях самоповреждений или насилия;
- более стабильное поведение в длинных диалогах и при повторных обращениях пользователя.
- При этом:
- вы всё равно отвечаете за собственный уровень модерации и UX вокруг чувствительных запросов;
- не стоит строить на ChatGPT системы, которые позиционируются как медицинская или психиатрическая помощь.
Доступность и ограничения в России
- ChatGPT и GPT‑5.5 Instant официально работают через сервисы OpenAI.
- В России доступ может требовать VPN и обходных платежных решений — это зависит от текущей регуляторной и санкционной ситуации.
- Даже при доступе к ChatGPT не стоит использовать его как единственный канал помощи при суицидальных мыслях или тяжёлых кризисах. В таких ситуациях приоритет — живые люди: врачи, психологи, горячие линии.
Место на рынке
OpenAI не даёт прямых сравнений с конкурентами по безопасности, но по самим метрикам видно, куда движется продукт.
- ChatGPT на GPT‑5.5 Instant — сейчас дефолтная модель в сервисе OpenAI.
- Обновления нацелены не на скорость или цену, а на качество поведения в высокорисковых ситуациях.
- Внутренние цифры OpenAI:
- +50% безопасных ответов в длинных диалогах по суициду и самоповреждениям;
- +16% по вреду другим людям в таких же сценариях;
- +52% безопасных ответов по вреду другим и +39% по суициду/самоповреждениям в сценариях с несколькими беседами на GPT‑5.5 Instant.
У конкурентов вроде Claude или Gemini тоже есть развитые системы модерации, но OpenAI здесь делает акцент на динамике во времени и на работе между сессиями через safety summaries. Это важный сдвиг от «фильтра на одно сообщение» к анализу паттерна поведения пользователя.
Для конечного пользователя это значит: если вы уже живёте в экосистеме OpenAI (ChatGPT, API, интеграции), уровень «страховки» от вредных ответов в чувствительных темах растёт без дополнительных настроек с вашей стороны.
Кому это полезно, а кому — нет
Полезно:
- Людям, которые иногда обсуждают с ChatGPT личные кризисы, эмоции, тяжёлые состояния.
- Разработчикам, строящим продукты на базе ChatGPT, где есть риск, что пользователи будут приходить с темами самоповреждений или насилия.
- Образовательным и корпоративным сервисам, которые хотят снизить риск токсичных или опасных ответов в «длинных» пользовательских сценариях.
Ограничения:
- ChatGPT всё ещё не медицинский продукт и не система психиатрической помощи.
- Он не подходит как единственный инструмент поддержки при суицидальных мыслях или тяжёлых психических расстройствах.
- Если вы ищете «максимально честный и прямой» разговор о вреде себе или другим с подробными инструкциями, ChatGPT станет ещё более ограниченным.
Что дальше
OpenAI прямо говорит, что задача — научить ИИ замечать риск, который проявляется медленно и неочевидно. Сейчас фокус — суицид, самоповреждения и вред другим людям.
Дальше OpenAI может применить похожий подход к другим высокорисковым областям:
- биобезопасность,
- кибербезопасность,
- другие домены, где вредные инструкции могут привести к реальному ущербу.
Но компания подчёркивает: для таких расширений понадобятся отдельные защитные меры и постепенное внедрение. Параллельно OpenAI планирует продолжать дообучение моделей, обновление политик и работу с экспертами по безопасности и психическому здоровью, чтобы ChatGPT лучше справлялся с редкими, но критически важными ситуациями, не ухудшая опыт обычных пользователей.