Как китайские чат-боты на ИИ учатся цензуре и чем это грозит пользователям — VogueTech

Что произошло

Исследователи из Стэнфорда и Принстона сравнили, как китайские и американские чат-боты на базе ИИ отвечают на политически чувствительные вопросы. Они взяли 145 запросов на темы вроде Тяньаньмэнь и диссидентов, задали их четырём китайским LLM и пяти американским. Эксперимент повторили 100 раз, чтобы отсеять случайные всплески и баги.

Результат предсказуем по направлению, но показателен по цифрам. DeepSeek отказался отвечать на 36% вопросов, Ernie Bot от Baidu — на 32%. У GPT от OpenAI и Llama от Meta уровень отказов оказался ниже 3%. Там, где китайские модели всё же отвечали, ответы были заметно короче и чаще содержали ошибки.

Команда под руководством политолога Стэнфорда Дженнифер Пэн попыталась разделить два источника цензуры: цензурированные датасеты и ручную настройку поведения моделей. Они проверили ответы не только на китайском, но и на английском, где в теории в обучении участвует гораздо более широкий набор источников. Даже в этом режиме китайские LLM демонстрировали повышенную цензуру.

Один показательный пример: на вопрос о Лю Сяобо, китайском диссиденте и лауреате Нобелевской премии мира 2010 года, одна из китайских моделей ответила, что это «японский учёный, известный вкладом в разработку ядерного оружия и международную политику». Это полная выдумка.

Контекст

Цензура в китайском интернете давно никого не удивляет, но ИИ добавляет новый слой сложности. Раньше исследователи вроде Пэн анализировали, какие сайты Китай блокирует и какие посты исчезают с Weibo. Сейчас приходится разбираться, как ведут себя модели вроде DeepSeek или Qwen, которые уже встроены в продукты и сервисы.

Классический подход — смотреть, что именно запрещает государство. Здесь всё менее прозрачно. Модель может:

честно отказаться отвечать на вопрос;
дать уклончивый, пустой ответ;
сгенерировать правдоподобную, но ложную версию событий.

Последний вариант самый опасный. Пользователь не видит «красный флажок» отказа. Он получает уверенный ответ, который выглядит как знание, но на деле — результат цензуры или дыры в обучающих данных.

Пэн говорит, что китайский интернет за десятилетия цензуры потерял огромный пласт информации. Это значит, что LLM, обученные на этих данных, изначально живут в усечённой картине мира. Исследование показывает: даже если добавить английские источники, ручная настройка всё равно сильно давит на ответы.

Авторы подчеркивают ещё одну проблему: из‑за галлюцинаций сложно понять, где кончается незнание модели и начинается осознанная фильтрация. Если чат-бот «придумывает» японского учёного Лю Сяобо, это может быть и следствием пустот в датасете, и результатом того, что разработчики жёстко штрафуют любые прямые упоминания реального диссидента.

Что это значит для вас

Если вы работаете с китайскими LLM — как продуктолог, исследователь, основатель стартапа или корпоративный заказчик, — важно закладывать в планы цензуру как функцию, а не как погрешность. DeepSeek, Ernie Bot и другие модели из Китая могут быть полезны для кода, маркетинга, e-commerce, но для аналитики по политике, правам человека, международным конфликтам и истории они ненадёжны по определению.

Для разработчиков и дата-сайентистов это сигнал: просто «скормить» модели больше западных данных недостаточно. Ручной пост-тюнинг и политика компаний могут полностью перекрыть плюсы более богатого датасета. Если вы строите продукт на базе китайской LLM, придётся либо ограничивать её домены, либо добавлять внешний слой валидации фактов для чувствительных тем.

Для исследователей и журналистов вывод ещё жёстче. Нельзя полагаться на ответы китайских чат-ботов в темах, которые хоть как-то касаются власти, протестов, цензуры, Тайваня, Гонконга, Тяньаньмэнь или конкретных активистов. Модель может не только промолчать, но и аккуратно переписать реальность — и вы не всегда это заметите.

Для обычных пользователей главный практический совет прост: если вы задаёте политический вопрос китайскому ИИ и получаете либо отказ, либо странный, слишком общий или подозрительно уверенный ответ, проверяйте его через GPT от OpenAI, Llama от Meta или другие источники. Разные модели смотрят на мир через разные фильтры, и в случае с Китаем этот фильтр особенно жёсткий.

Хорошая новость в том, что исследование даёт воспроизводимую методику: одни и те же 145 вопросов, 100 прогонов, сравнение отказов и качества. Плохая — в том, что по мере роста популярности ИИ цензура становится менее заметной и более эффективной. Это придётся учитывать всем, кто строит продукты и принимает решения на основе ответов чат-ботов.