Дата публикации
ai_products

OpenAI учит ChatGPT лучше замечать риск в «долгих» и повторяющихся разговорах

Что нового

OpenAI обновила систему безопасности ChatGPT, чтобы она лучше замечала риск не только в одном сообщении, но и в длинных и повторяющихся разговорах.

Ключевые изменения:

  • Распознавание риска по контексту:

    • ChatGPT теперь учитывает не только последний запрос, но и предыдущие реплики, где могли появляться первые тревожные сигналы.
    • Фокус — острые сценарии: суицид, самоповреждения, вред другим людям.
  • Безопасные ответы в сложных диалогах выросли по метрикам OpenAI:

    • В длинных диалогах в рамках одной беседы:
      • случаи суицида и самоповреждений: рост корректных безопасных ответов на 50%;
      • сценарии вреда другим людям: рост на 16%.
    • В нескольких беседах подряд (на GPT‑5.5 Instant, текущая дефолтная модель в ChatGPT):
      • вред другим людям: рост безопасных ответов на 52%;
      • суицид и самоповреждения: рост на 39%.
  • Safety summaries (краткие «безопасные» конспекты):

    • Специальная модель делает короткие заметки о важном контексте риска из предыдущих разговоров.
    • Эти заметки используются только для задач безопасности, а не для персонализации.
    • Оценка по внутренним метрикам OpenAI (более 4000 проверок):
      • релевантность безопасности: 4,93 из 5;
      • фактичность: 4,34 из 5.
  • Фокус на минимальное влияние на обычные диалоги:

    • В тестах OpenAI пользователи не заметили разницы в качестве ответов в повседневных темах с включёнными и выключенными safety summaries.
  • Участие экспертов по психическому здоровью:

    • OpenAI консультировалась с психиатрами и психологами из Global Physicians Network.
    • Они помогали определить, когда создавать safety summary, какой объём прошлого контекста учитывать и как долго опираться на него.

Как это работает

OpenAI добавила к ChatGPT несколько новых технических слоёв, которые работают поверх основной языковой модели (например, GPT‑5.5 Instant).

1. Анализ контекста внутри одной беседы

Раньше безопасность в основном смотрела на отдельный запрос: если сообщение явно опасное — ChatGPT отказывался или деэскалировал. Теперь:

  • ChatGPT анализирует последовательность реплик в диалоге.
  • Если в начале беседы были тревожные сигналы (упоминания самоповреждений, агрессии, сильного дистресса), а потом появляется вроде бы «обычный» вопрос, модель учитывает, как прошлые сообщения меняют смысл нового запроса.
  • В ответах ChatGPT может:
    • мягко деэскалировать разговор;
    • отказаться от детализированных инструкций, которые могут привести к вреду;
    • перенаправить к более безопасным темам или предложить обратиться к людям и службам поддержки.

Это расширение уже существующего подхода OpenAI с «safe completion» — когда система не просто блокирует весь ответ, а вырезает опасные части и даёт безопасную альтернативу.

2. Safety summaries: краткая «память» о риске между беседами

Отдельная проблема — когда риск «размазан» по нескольким сессиям:

  • В одной беседе пользователь пишет что-то тревожное, но без прямых просьб.
  • В другой — задаёт технический или на вид нейтральный вопрос, который становится опасным только в связке с прошлым контекстом.

Чтобы не терять такие сигналы, OpenAI добавила слой safety summaries:

  • Отдельная модель, обученная на задачах safety reasoning, формирует короткие, фактологические заметки о важных сигналах риска.
  • Эти заметки:
    • узко сфокусированы на темах безопасности (суицид, самоповреждения, вред другим);
    • хранятся ограниченное время;
    • используются только, когда есть серьёзная потенциальная угроза.
  • ChatGPT при ответе может заглянуть в такой summary и усилить осторожность, если видит, что текущий запрос логически продолжает опасную линию.

Важно: safety summaries не работают как «вечная память» или персонализация. Это краткоживущий слой контекста, который включается только вокруг высокорисковых сценариев.

3. Политики и обучение с участием экспертов

OpenAI обновила политики безопасности и обучающие данные для ChatGPT:

  • Психиатры, психологи, эксперты по суицидальной и аутоагрессивной поведению помогали сформулировать:
    • какие формулировки и паттерны поведения считать тревожными;
    • на какой дистанции по времени прошлые сообщения всё ещё важны;
    • когда безопаснее усилить осторожность, а когда — не драматизировать обычный запрос.
  • На основе этих правил OpenAI дообучила модель, чтобы она:
    • лучше распознавала постепенное нарастание риска;
    • корректнее деэскалировала разговоры;
    • чаще предлагала ресурсы помощи и поддержку вместо технических инструкций.

Что это значит для вас

Если вы используете ChatGPT как «собеседника» или для эмоциональной разгрузки

  • ChatGPT стал чувствительнее к тому, что вы пишете на протяжении времени, а не только в одном сообщении.
  • Если вы пишете о:
    • суицидальных мыслях,
    • самоповреждениях,
    • желании причинить вред другим, он чаще будет:
    • мягко останавливать опасные сценарии;
    • не давать конкретных инструкций, если запрос может привести к вреду;
    • предлагать обратиться к близким или специалистам и давать информацию о кризисных ресурсах (там, где это возможно по региону).

Важно понимать: ChatGPT не заменяет психотерапевта или врача. Это всё ещё языковая модель, а не медицинский сервис. Она может поддержать, подсказать, как сформулировать мысли, но не поставить диагноз и не провести терапию.

Если вы используете ChatGPT для работы и исследований

  • В обычных деловых задачах (код, тексты, аналитика, исследования) поведение ChatGPT практически не меняется.
  • Внутренние тесты OpenAI показывают, что пользователи не предпочитают ответы без safety summaries по сравнению с ответами с ними — то есть качество в бытовых и рабочих задачах остаётся на том же уровне.
  • Но если ваши запросы затрагивают чувствительные темы:
    • насилие,
    • криминал,
    • вред себе или другим, вы чаще получите отказ в деталях и более осторожную формулировку.

Если вы строите продукт поверх ChatGPT

  • Для разработчиков, которые интегрируют ChatGPT в свои сервисы (чат-боты, помощники, образовательные продукты), это значит:
    • меньше риска, что ваш продукт даст прямые вредоносные инструкции в сценариях самоповреждений или насилия;
    • более стабильное поведение в длинных диалогах и при повторных обращениях пользователя.
  • При этом:
    • вы всё равно отвечаете за собственный уровень модерации и UX вокруг чувствительных запросов;
    • не стоит строить на ChatGPT системы, которые позиционируются как медицинская или психиатрическая помощь.

Доступность и ограничения в России

  • ChatGPT и GPT‑5.5 Instant официально работают через сервисы OpenAI.
  • В России доступ может требовать VPN и обходных платежных решений — это зависит от текущей регуляторной и санкционной ситуации.
  • Даже при доступе к ChatGPT не стоит использовать его как единственный канал помощи при суицидальных мыслях или тяжёлых кризисах. В таких ситуациях приоритет — живые люди: врачи, психологи, горячие линии.

Место на рынке

OpenAI не даёт прямых сравнений с конкурентами по безопасности, но по самим метрикам видно, куда движется продукт.

  • ChatGPT на GPT‑5.5 Instant — сейчас дефолтная модель в сервисе OpenAI.
  • Обновления нацелены не на скорость или цену, а на качество поведения в высокорисковых ситуациях.
  • Внутренние цифры OpenAI:
    • +50% безопасных ответов в длинных диалогах по суициду и самоповреждениям;
    • +16% по вреду другим людям в таких же сценариях;
    • +52% безопасных ответов по вреду другим и +39% по суициду/самоповреждениям в сценариях с несколькими беседами на GPT‑5.5 Instant.

У конкурентов вроде Claude или Gemini тоже есть развитые системы модерации, но OpenAI здесь делает акцент на динамике во времени и на работе между сессиями через safety summaries. Это важный сдвиг от «фильтра на одно сообщение» к анализу паттерна поведения пользователя.

Для конечного пользователя это значит: если вы уже живёте в экосистеме OpenAI (ChatGPT, API, интеграции), уровень «страховки» от вредных ответов в чувствительных темах растёт без дополнительных настроек с вашей стороны.

Кому это полезно, а кому — нет

Полезно:

  • Людям, которые иногда обсуждают с ChatGPT личные кризисы, эмоции, тяжёлые состояния.
  • Разработчикам, строящим продукты на базе ChatGPT, где есть риск, что пользователи будут приходить с темами самоповреждений или насилия.
  • Образовательным и корпоративным сервисам, которые хотят снизить риск токсичных или опасных ответов в «длинных» пользовательских сценариях.

Ограничения:

  • ChatGPT всё ещё не медицинский продукт и не система психиатрической помощи.
  • Он не подходит как единственный инструмент поддержки при суицидальных мыслях или тяжёлых психических расстройствах.
  • Если вы ищете «максимально честный и прямой» разговор о вреде себе или другим с подробными инструкциями, ChatGPT станет ещё более ограниченным.

Что дальше

OpenAI прямо говорит, что задача — научить ИИ замечать риск, который проявляется медленно и неочевидно. Сейчас фокус — суицид, самоповреждения и вред другим людям.

Дальше OpenAI может применить похожий подход к другим высокорисковым областям:

  • биобезопасность,
  • кибербезопасность,
  • другие домены, где вредные инструкции могут привести к реальному ущербу.

Но компания подчёркивает: для таких расширений понадобятся отдельные защитные меры и постепенное внедрение. Параллельно OpenAI планирует продолжать дообучение моделей, обновление политик и работу с экспертами по безопасности и психическому здоровью, чтобы ChatGPT лучше справлялся с редкими, но критически важными ситуациями, не ухудшая опыт обычных пользователей.


Читайте также