Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Reddit заявила, что обнаружила случаи сбора данных с платформы компаниями, разрабатывающими искусственный интеллект (ИИ), посредством использования Wayback Machine – архива веб-сайтов Internet Archive. В связи с этим, Reddit планирует ограничить доступ Internet Archive к индексации большей части контента платформы.
Wayback Machine больше не сможет сканировать страницы с детальной информацией о публикациях, комментарии или профили пользователей. Вместо этого, архив сможет индексировать только главную страницу Reddit (Reddit.com), что фактически означает, что Internet Archive сможет сохранять информацию лишь о самых популярных заголовках новостей и публикациях на определенный день.
Представитель Reddit, Тим Ратшмидт (Tim Rathschmidt), сообщил, что Internet Archive предоставляет ценный сервис для открытого интернета, но компаниям, использующим Wayback Machine для сбора данных с нарушением правил платформы, включая политику Reddit, будет ограничен доступ.
Миссия Internet Archive заключается в создании цифрового архива веб-сайтов и других культурных артефактов, а Wayback Machine – это инструмент для просмотра веб-страниц в их историческом состоянии. Однако, Reddit считает, что не весь контент платформы должен быть заархивирован таким образом.
Ратшмидт пояснил, что до тех пор, пока Internet Archive не сможет обеспечить защиту своего сайта и соблюдать правила платформы (например, удалять удаленный контент по запросу пользователей), Reddit ограничивает доступ архива к данным платформы для защиты пользователей.
Ограничения начнут действовать постепенно, начиная с сегодняшнего дня. Reddit утверждает, что заранее уведомила Internet Archive об этих ограничениях. Компания также заявляет, что ранее выражала обеспокоенность по поводу возможности сбора контента с Internet Archive.
Reddit имеет прецеденты блокировки доступа к инструментам сбора данных, поскольку компании, разрабатывающие ИИ, стали активно их использовать (и злоупотреблять ими). Однако, Reddit готова предоставлять эти данные компаниям на платной основе.
В прошлом году Reddit заключила соглашение с Google, касающееся как Google Search, так и данных для обучения ИИ. Через несколько месяцев компания начала блокировать доступ к своим данным для основных поисковых систем, если они не готовы платить. Изменения в API Reddit в 2023 году, которые привели к закрытию некоторых сторонних приложений и вызвали протесты, также были объяснены злоупотреблением этими API для обучения моделей ИИ.
Reddit также заключила соглашение с OpenAI в области ИИ, но подала в суд на Anthropic в июне, обвинив ее ботов в более чем 100 000 обращениях к Reddit с прошлого июля.
Internet Archive пока не прокомментировал данную ситуацию.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...