OpenAI против The New York Times: без чужих текстов ИИ не обучить — VogueTech

Что появилось / что изменилось

В споре между The New York Times и OpenAI всплыло важное признание: OpenAI прямо заявила, что не может обучать свои генеративные модели без материалов, защищенных авторским правом. Об этом пишет Business Insider со ссылкой на возражения OpenAI в американском суде.

Ключевые моменты:

OpenAI утверждает, что обучение только на источниках старше 100 лет (на них уже не действует авторское право) не дало бы работоспособный ИИ.
Компания признает использование материалов The New York Times, но указывает: эти тексты уже лежат на множестве сторонних сайтов.
The New York Times подала иск в Федеральный окружной суд Манхэттена в декабре против OpenAI и Microsoft. Речь идет о нарушении авторских прав при обучении нейросетей, включая ChatGPT.
Газета заявляет, что ИИ OpenAI использовал ее новостную ленту и теперь может конкурировать с зарегистрированным СМИ.
Издание требует уничтожить все чат-боты и обучающие датасеты, где присутствуют материалы газеты, а также компенсацию в размере «миллиардов долларов». Точная сумма не раскрывается.

Юридически ничего еще не решено, но позиция OpenAI формализована: без защищенного контента нынешний класс генеративных моделей работать не будет.

Как это работает

Современные генеративные модели обучаются на огромных корпусах текстов. Туда входят:

книги и статьи,
новостные ленты,
веб-страницы из открытого доступа,
другие массивные текстовые архивы.

Обучение устроено просто: модель получает фрагменты текста и учится предсказывать следующий токен (слово или его часть). Чтобы хорошо писать о новостях, законах, финансах и культуре, ей нужны свежие и разнообразные примеры. Именно поэтому OpenAI и говорит: одних старых текстов столетней давности недостаточно.

В основе конфликта — источник датасета. The New York Times считает, что ее статьи использовали без согласия и оплаты. OpenAI отвечает: данные брали из уже доступных в сети копий, а не напрямую из платной подписки издания.

С технической стороны это стандартный сбор и очистка данных для обучения больших языковых моделей. С правовой стороны — вопрос, можно ли считать такое использование «добросовестным» и где проходит граница между открытым доступом и нарушением прав.

Что это значит для вас

Если вы используете ChatGPT или другие генеративные сервисы, важно понимать несколько вещей:

Ответы ИИ частично основаны на материалах, защищенных авторским правом, в том числе на новостях крупных медиа.
Исходные статьи в ответе не видны, но их стиль, структура и факты могли повлиять на обучение.
Риск для обычного пользователя минимален: претензии сейчас адресованы OpenAI и Microsoft, а не конечным пользователям.

Практически это означает:

Для личного поиска информации, набросков текстов, черновиков писем и идей можно продолжать пользоваться ChatGPT.
Для коммерческого контента (маркетинг, публичные статьи, описания продуктов) безопаснее не копировать ответы один в один, а переписывать, добавлять свою экспертизу и проверять факты по первоисточникам.
Для юридических документов, финансовых отчетов и чувствительных материалов стоит консультироваться с профессионалами и использовать ИИ только как вспомогательный инструмент.

Нужно учитывать и риск «выдергивания» фрагментов, похожих на оригинальные тексты из СМИ. Если вы работаете с медиа, контент-стратегией или юридической сферой, лучше проверять результат на совпадения с открытыми источниками с помощью сервисов поиска плагиата.

Если доступ к ChatGPT в России затруднен или заблокирован, потребуется VPN и возможна оплата через зарубежные платежные инструменты. Это дополнительно ограничивает использование сервиса для части аудитории.

Место на рынке

Конфликт с The New York Times показывает то, о чем давно говорили в индустрии: все крупные игроки в генеративном ИИ зависят от защищенных авторским правом датасетов.

OpenAI с ChatGPT строит свои модели на массивных корпусах текстов, в том числе новостных. Конкуренты действуют похоже — используют масштабные веб-корпуса, книги, документацию и другие ресурсы, где вопросы авторских прав тоже не всегда прозрачны.

Сейчас фокус не на качестве или скорости конкретных моделей, а на новом фронте — отношениях между правообладателями контента и разработчиками ИИ. От исхода дела The New York Times против OpenAI и Microsoft зависит, насколько дорого и сложно станет обучать будущие поколения нейросетей.

Для рынка это сигнал: эпоха «обучили на всем, что нашли в интернете» заканчивается. Для медиа и правообладателей — шанс выстроить платные лицензии на данные. Для пользователей — вероятность, что через пару лет доступ к моделям либо подорожает, либо их знания станут более фрагментарными, если качественных источников в датасетах станет меньше.

Что появилось / что изменилось

Как это работает

Что это значит для вас

Место на рынке

Читайте также