OpenAI учит ChatGPT лучше замечать риск в «долгих» и повторяющихся разговорах — VogueTech

Что нового

OpenAI обновила систему безопасности ChatGPT, чтобы она лучше замечала риск не только в одном сообщении, но и в длинных и повторяющихся разговорах.

Ключевые изменения:

Распознавание риска по контексту:
- ChatGPT теперь учитывает не только последний запрос, но и предыдущие реплики, где могли появляться первые тревожные сигналы.
- Фокус — острые сценарии: суицид, самоповреждения, вред другим людям.
Безопасные ответы в сложных диалогах выросли по метрикам OpenAI:
- В длинных диалогах в рамках одной беседы:
  - случаи суицида и самоповреждений: рост корректных безопасных ответов на 50%;
  - сценарии вреда другим людям: рост на 16%.
- В нескольких беседах подряд (на GPT‑5.5 Instant, текущая дефолтная модель в ChatGPT):
  - вред другим людям: рост безопасных ответов на 52%;
  - суицид и самоповреждения: рост на 39%.
Safety summaries (краткие «безопасные» конспекты):
- Специальная модель делает короткие заметки о важном контексте риска из предыдущих разговоров.
- Эти заметки используются только для задач безопасности, а не для персонализации.
- Оценка по внутренним метрикам OpenAI (более 4000 проверок):
  - релевантность безопасности: 4,93 из 5;
  - фактичность: 4,34 из 5.
Фокус на минимальное влияние на обычные диалоги:
- В тестах OpenAI пользователи не заметили разницы в качестве ответов в повседневных темах с включёнными и выключенными safety summaries.
Участие экспертов по психическому здоровью:
- OpenAI консультировалась с психиатрами и психологами из Global Physicians Network.
- Они помогали определить, когда создавать safety summary, какой объём прошлого контекста учитывать и как долго опираться на него.

Как это работает

OpenAI добавила к ChatGPT несколько новых технических слоёв, которые работают поверх основной языковой модели (например, GPT‑5.5 Instant).

1. Анализ контекста внутри одной беседы

Раньше безопасность в основном смотрела на отдельный запрос: если сообщение явно опасное — ChatGPT отказывался или деэскалировал. Теперь:

ChatGPT анализирует последовательность реплик в диалоге.
Если в начале беседы были тревожные сигналы (упоминания самоповреждений, агрессии, сильного дистресса), а потом появляется вроде бы «обычный» вопрос, модель учитывает, как прошлые сообщения меняют смысл нового запроса.
В ответах ChatGPT может:
- мягко деэскалировать разговор;
- отказаться от детализированных инструкций, которые могут привести к вреду;
- перенаправить к более безопасным темам или предложить обратиться к людям и службам поддержки.

Это расширение уже существующего подхода OpenAI с «safe completion» — когда система не просто блокирует весь ответ, а вырезает опасные части и даёт безопасную альтернативу.

2. Safety summaries: краткая «память» о риске между беседами

Отдельная проблема — когда риск «размазан» по нескольким сессиям:

В одной беседе пользователь пишет что-то тревожное, но без прямых просьб.
В другой — задаёт технический или на вид нейтральный вопрос, который становится опасным только в связке с прошлым контекстом.

Чтобы не терять такие сигналы, OpenAI добавила слой safety summaries:

Отдельная модель, обученная на задачах safety reasoning, формирует короткие, фактологические заметки о важных сигналах риска.
Эти заметки:
- узко сфокусированы на темах безопасности (суицид, самоповреждения, вред другим);
- хранятся ограниченное время;
- используются только, когда есть серьёзная потенциальная угроза.
ChatGPT при ответе может заглянуть в такой summary и усилить осторожность, если видит, что текущий запрос логически продолжает опасную линию.

Важно: safety summaries не работают как «вечная память» или персонализация. Это краткоживущий слой контекста, который включается только вокруг высокорисковых сценариев.

3. Политики и обучение с участием экспертов

OpenAI обновила политики безопасности и обучающие данные для ChatGPT:

Психиатры, психологи, эксперты по суицидальной и аутоагрессивной поведению помогали сформулировать:
- какие формулировки и паттерны поведения считать тревожными;
- на какой дистанции по времени прошлые сообщения всё ещё важны;
- когда безопаснее усилить осторожность, а когда — не драматизировать обычный запрос.
На основе этих правил OpenAI дообучила модель, чтобы она:
- лучше распознавала постепенное нарастание риска;
- корректнее деэскалировала разговоры;
- чаще предлагала ресурсы помощи и поддержку вместо технических инструкций.

Что это значит для вас

Если вы используете ChatGPT как «собеседника» или для эмоциональной разгрузки

ChatGPT стал чувствительнее к тому, что вы пишете на протяжении времени, а не только в одном сообщении.
Если вы пишете о:
- суицидальных мыслях,
- самоповреждениях,
- желании причинить вред другим, он чаще будет:
- мягко останавливать опасные сценарии;
- не давать конкретных инструкций, если запрос может привести к вреду;
- предлагать обратиться к близким или специалистам и давать информацию о кризисных ресурсах (там, где это возможно по региону).

Важно понимать: ChatGPT не заменяет психотерапевта или врача. Это всё ещё языковая модель, а не медицинский сервис. Она может поддержать, подсказать, как сформулировать мысли, но не поставить диагноз и не провести терапию.

Если вы используете ChatGPT для работы и исследований

В обычных деловых задачах (код, тексты, аналитика, исследования) поведение ChatGPT практически не меняется.
Внутренние тесты OpenAI показывают, что пользователи не предпочитают ответы без safety summaries по сравнению с ответами с ними — то есть качество в бытовых и рабочих задачах остаётся на том же уровне.
Но если ваши запросы затрагивают чувствительные темы:
- насилие,
- криминал,
- вред себе или другим, вы чаще получите отказ в деталях и более осторожную формулировку.

Если вы строите продукт поверх ChatGPT

Для разработчиков, которые интегрируют ChatGPT в свои сервисы (чат-боты, помощники, образовательные продукты), это значит:
- меньше риска, что ваш продукт даст прямые вредоносные инструкции в сценариях самоповреждений или насилия;
- более стабильное поведение в длинных диалогах и при повторных обращениях пользователя.
При этом:
- вы всё равно отвечаете за собственный уровень модерации и UX вокруг чувствительных запросов;
- не стоит строить на ChatGPT системы, которые позиционируются как медицинская или психиатрическая помощь.

Доступность и ограничения в России

ChatGPT и GPT‑5.5 Instant официально работают через сервисы OpenAI.
В России доступ может требовать VPN и обходных платежных решений — это зависит от текущей регуляторной и санкционной ситуации.
Даже при доступе к ChatGPT не стоит использовать его как единственный канал помощи при суицидальных мыслях или тяжёлых кризисах. В таких ситуациях приоритет — живые люди: врачи, психологи, горячие линии.

Место на рынке

OpenAI не даёт прямых сравнений с конкурентами по безопасности, но по самим метрикам видно, куда движется продукт.

ChatGPT на GPT‑5.5 Instant — сейчас дефолтная модель в сервисе OpenAI.
Обновления нацелены не на скорость или цену, а на качество поведения в высокорисковых ситуациях.
Внутренние цифры OpenAI:
- +50% безопасных ответов в длинных диалогах по суициду и самоповреждениям;
- +16% по вреду другим людям в таких же сценариях;
- +52% безопасных ответов по вреду другим и +39% по суициду/самоповреждениям в сценариях с несколькими беседами на GPT‑5.5 Instant.

У конкурентов вроде Claude или Gemini тоже есть развитые системы модерации, но OpenAI здесь делает акцент на динамике во времени и на работе между сессиями через safety summaries. Это важный сдвиг от «фильтра на одно сообщение» к анализу паттерна поведения пользователя.

Для конечного пользователя это значит: если вы уже живёте в экосистеме OpenAI (ChatGPT, API, интеграции), уровень «страховки» от вредных ответов в чувствительных темах растёт без дополнительных настроек с вашей стороны.

Кому это полезно, а кому — нет

Полезно:

Людям, которые иногда обсуждают с ChatGPT личные кризисы, эмоции, тяжёлые состояния.
Разработчикам, строящим продукты на базе ChatGPT, где есть риск, что пользователи будут приходить с темами самоповреждений или насилия.
Образовательным и корпоративным сервисам, которые хотят снизить риск токсичных или опасных ответов в «длинных» пользовательских сценариях.

Ограничения:

ChatGPT всё ещё не медицинский продукт и не система психиатрической помощи.
Он не подходит как единственный инструмент поддержки при суицидальных мыслях или тяжёлых психических расстройствах.
Если вы ищете «максимально честный и прямой» разговор о вреде себе или другим с подробными инструкциями, ChatGPT станет ещё более ограниченным.

Что дальше

OpenAI прямо говорит, что задача — научить ИИ замечать риск, который проявляется медленно и неочевидно. Сейчас фокус — суицид, самоповреждения и вред другим людям.

Дальше OpenAI может применить похожий подход к другим высокорисковым областям:

биобезопасность,
кибербезопасность,
другие домены, где вредные инструкции могут привести к реальному ущербу.

Но компания подчёркивает: для таких расширений понадобятся отдельные защитные меры и постепенное внедрение. Параллельно OpenAI планирует продолжать дообучение моделей, обновление политик и работу с экспертами по безопасности и психическому здоровью, чтобы ChatGPT лучше справлялся с редкими, но критически важными ситуациями, не ухудшая опыт обычных пользователей.