- Дата публикации
OpenAI против The New York Times: без чужих текстов ИИ не обучить
Что появилось / что изменилось
В споре между The New York Times и OpenAI всплыло важное признание: OpenAI прямо заявила, что не может обучать свои генеративные модели без материалов, защищенных авторским правом. Об этом пишет Business Insider со ссылкой на возражения OpenAI в американском суде.
Ключевые моменты:
- OpenAI утверждает, что обучение только на источниках старше 100 лет (на них уже не действует авторское право) не дало бы работоспособный ИИ.
- Компания признает использование материалов The New York Times, но указывает: эти тексты уже лежат на множестве сторонних сайтов.
- The New York Times подала иск в Федеральный окружной суд Манхэттена в декабре против OpenAI и Microsoft. Речь идет о нарушении авторских прав при обучении нейросетей, включая ChatGPT.
- Газета заявляет, что ИИ OpenAI использовал ее новостную ленту и теперь может конкурировать с зарегистрированным СМИ.
- Издание требует уничтожить все чат-боты и обучающие датасеты, где присутствуют материалы газеты, а также компенсацию в размере «миллиардов долларов». Точная сумма не раскрывается.
Юридически ничего еще не решено, но позиция OpenAI формализована: без защищенного контента нынешний класс генеративных моделей работать не будет.
Как это работает
Современные генеративные модели обучаются на огромных корпусах текстов. Туда входят:
- книги и статьи,
- новостные ленты,
- веб-страницы из открытого доступа,
- другие массивные текстовые архивы.
Обучение устроено просто: модель получает фрагменты текста и учится предсказывать следующий токен (слово или его часть). Чтобы хорошо писать о новостях, законах, финансах и культуре, ей нужны свежие и разнообразные примеры. Именно поэтому OpenAI и говорит: одних старых текстов столетней давности недостаточно.
В основе конфликта — источник датасета. The New York Times считает, что ее статьи использовали без согласия и оплаты. OpenAI отвечает: данные брали из уже доступных в сети копий, а не напрямую из платной подписки издания.
С технической стороны это стандартный сбор и очистка данных для обучения больших языковых моделей. С правовой стороны — вопрос, можно ли считать такое использование «добросовестным» и где проходит граница между открытым доступом и нарушением прав.
Что это значит для вас
Если вы используете ChatGPT или другие генеративные сервисы, важно понимать несколько вещей:
- Ответы ИИ частично основаны на материалах, защищенных авторским правом, в том числе на новостях крупных медиа.
- Исходные статьи в ответе не видны, но их стиль, структура и факты могли повлиять на обучение.
- Риск для обычного пользователя минимален: претензии сейчас адресованы OpenAI и Microsoft, а не конечным пользователям.
Практически это означает:
- Для личного поиска информации, набросков текстов, черновиков писем и идей можно продолжать пользоваться ChatGPT.
- Для коммерческого контента (маркетинг, публичные статьи, описания продуктов) безопаснее не копировать ответы один в один, а переписывать, добавлять свою экспертизу и проверять факты по первоисточникам.
- Для юридических документов, финансовых отчетов и чувствительных материалов стоит консультироваться с профессионалами и использовать ИИ только как вспомогательный инструмент.
Нужно учитывать и риск «выдергивания» фрагментов, похожих на оригинальные тексты из СМИ. Если вы работаете с медиа, контент-стратегией или юридической сферой, лучше проверять результат на совпадения с открытыми источниками с помощью сервисов поиска плагиата.
Если доступ к ChatGPT в России затруднен или заблокирован, потребуется VPN и возможна оплата через зарубежные платежные инструменты. Это дополнительно ограничивает использование сервиса для части аудитории.
Место на рынке
Конфликт с The New York Times показывает то, о чем давно говорили в индустрии: все крупные игроки в генеративном ИИ зависят от защищенных авторским правом датасетов.
OpenAI с ChatGPT строит свои модели на массивных корпусах текстов, в том числе новостных. Конкуренты действуют похоже — используют масштабные веб-корпуса, книги, документацию и другие ресурсы, где вопросы авторских прав тоже не всегда прозрачны.
Сейчас фокус не на качестве или скорости конкретных моделей, а на новом фронте — отношениях между правообладателями контента и разработчиками ИИ. От исхода дела The New York Times против OpenAI и Microsoft зависит, насколько дорого и сложно станет обучать будущие поколения нейросетей.
Для рынка это сигнал: эпоха «обучили на всем, что нашли в интернете» заканчивается. Для медиа и правообладателей — шанс выстроить платные лицензии на данные. Для пользователей — вероятность, что через пару лет доступ к моделям либо подорожает, либо их знания станут более фрагментарными, если качественных источников в датасетах станет меньше.