Дата публикации
ai_products

OpenAI против The New York Times: без чужих текстов ИИ не обучить

Что появилось / что изменилось

В споре между The New York Times и OpenAI всплыло важное признание: OpenAI прямо заявила, что не может обучать свои генеративные модели без материалов, защищенных авторским правом. Об этом пишет Business Insider со ссылкой на возражения OpenAI в американском суде.

Ключевые моменты:

  • OpenAI утверждает, что обучение только на источниках старше 100 лет (на них уже не действует авторское право) не дало бы работоспособный ИИ.
  • Компания признает использование материалов The New York Times, но указывает: эти тексты уже лежат на множестве сторонних сайтов.
  • The New York Times подала иск в Федеральный окружной суд Манхэттена в декабре против OpenAI и Microsoft. Речь идет о нарушении авторских прав при обучении нейросетей, включая ChatGPT.
  • Газета заявляет, что ИИ OpenAI использовал ее новостную ленту и теперь может конкурировать с зарегистрированным СМИ.
  • Издание требует уничтожить все чат-боты и обучающие датасеты, где присутствуют материалы газеты, а также компенсацию в размере «миллиардов долларов». Точная сумма не раскрывается.

Юридически ничего еще не решено, но позиция OpenAI формализована: без защищенного контента нынешний класс генеративных моделей работать не будет.

Как это работает

Современные генеративные модели обучаются на огромных корпусах текстов. Туда входят:

  • книги и статьи,
  • новостные ленты,
  • веб-страницы из открытого доступа,
  • другие массивные текстовые архивы.

Обучение устроено просто: модель получает фрагменты текста и учится предсказывать следующий токен (слово или его часть). Чтобы хорошо писать о новостях, законах, финансах и культуре, ей нужны свежие и разнообразные примеры. Именно поэтому OpenAI и говорит: одних старых текстов столетней давности недостаточно.

В основе конфликта — источник датасета. The New York Times считает, что ее статьи использовали без согласия и оплаты. OpenAI отвечает: данные брали из уже доступных в сети копий, а не напрямую из платной подписки издания.

С технической стороны это стандартный сбор и очистка данных для обучения больших языковых моделей. С правовой стороны — вопрос, можно ли считать такое использование «добросовестным» и где проходит граница между открытым доступом и нарушением прав.

Что это значит для вас

Если вы используете ChatGPT или другие генеративные сервисы, важно понимать несколько вещей:

  • Ответы ИИ частично основаны на материалах, защищенных авторским правом, в том числе на новостях крупных медиа.
  • Исходные статьи в ответе не видны, но их стиль, структура и факты могли повлиять на обучение.
  • Риск для обычного пользователя минимален: претензии сейчас адресованы OpenAI и Microsoft, а не конечным пользователям.

Практически это означает:

  • Для личного поиска информации, набросков текстов, черновиков писем и идей можно продолжать пользоваться ChatGPT.
  • Для коммерческого контента (маркетинг, публичные статьи, описания продуктов) безопаснее не копировать ответы один в один, а переписывать, добавлять свою экспертизу и проверять факты по первоисточникам.
  • Для юридических документов, финансовых отчетов и чувствительных материалов стоит консультироваться с профессионалами и использовать ИИ только как вспомогательный инструмент.

Нужно учитывать и риск «выдергивания» фрагментов, похожих на оригинальные тексты из СМИ. Если вы работаете с медиа, контент-стратегией или юридической сферой, лучше проверять результат на совпадения с открытыми источниками с помощью сервисов поиска плагиата.

Если доступ к ChatGPT в России затруднен или заблокирован, потребуется VPN и возможна оплата через зарубежные платежные инструменты. Это дополнительно ограничивает использование сервиса для части аудитории.

Место на рынке

Конфликт с The New York Times показывает то, о чем давно говорили в индустрии: все крупные игроки в генеративном ИИ зависят от защищенных авторским правом датасетов.

OpenAI с ChatGPT строит свои модели на массивных корпусах текстов, в том числе новостных. Конкуренты действуют похоже — используют масштабные веб-корпуса, книги, документацию и другие ресурсы, где вопросы авторских прав тоже не всегда прозрачны.

Сейчас фокус не на качестве или скорости конкретных моделей, а на новом фронте — отношениях между правообладателями контента и разработчиками ИИ. От исхода дела The New York Times против OpenAI и Microsoft зависит, насколько дорого и сложно станет обучать будущие поколения нейросетей.

Для рынка это сигнал: эпоха «обучили на всем, что нашли в интернете» заканчивается. Для медиа и правообладателей — шанс выстроить платные лицензии на данные. Для пользователей — вероятность, что через пару лет доступ к моделям либо подорожает, либо их знания станут более фрагментарными, если качественных источников в датасетах станет меньше.


Читайте также

🔗 Источник: https://pravo.ru/news/250825/
OpenAI против The New York Times: без чужих текстов ИИ не обучить — VogueTech | VogueTech