Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Стартап в области поискового искусственного интеллекта Perplexity, предположительно, обходит ограничения, предназначенные для предотвращения доступа его веб-краулеров к определенным сайтам, согласно отчету Cloudflare. В своем отчете Cloudflare утверждает, что когда Perplexity сталкивается с блокировкой, стартап скрывает свою идентификацию краулера «в попытке обойти предпочтения веб-сайта». Этот отчет лишь добавляет опасений по поводу того, что Perplexity собирает контент без разрешения, поскольку в прошлом году компания была замечена в обходе платных стен и игнорировании файлов robots.txt. В то время генеральный директор Perplexity Аравинд Шринавас (Aravind Srinivas) возложил вину за эту активность на сторонних краулеров, используемых сайтом. Теперь Cloudflare, один из крупнейших в мире поставщиков интернет-инфраструктуры, сообщает, что получил жалобы от клиентов, утверждающих, что боты Perplexity по-прежнему имеют доступ к их сайтам, даже после указания своих предпочтений в файле robots.txt и создания правил Web Application Firewall (WAF) для ограничения доступа ботов стартапа.
Для проверки этого Cloudflare утверждает, что создал новые домены с аналогичными ограничениями для AI-скрейперов Perplexity. Компания обнаружила, что стартап сначала пытается получить доступ к сайтам, идентифицируя себя под именами своих краулеров: «PerplexityBot» или «Perplexity-User». Но если на веб-сайте есть ограничения на AI-скрейпинг, Cloudflare утверждает, что Perplexity меняет свой user agent – информацию, которая сообщает веб-сайту, какой тип браузера и устройства вы используете, или является ли посетитель ботом – чтобы «выдать себя за Google Chrome на macOS». Cloudflare заявляет, что этот «недекларированный краулер» использует «динамически меняющиеся» IP-адреса, которые компания не включает в список IP-адресов, используемых ее ботами. Кроме того, Cloudflare утверждает, что Perplexity меняет свои автономные системы (ASN), номер, используемый для идентификации групп IP-сетей, контролируемых одним оператором, чтобы также обходить блокировки. «Эта активность наблюдалась на десятках тысяч доменов и миллионах запросов в день», – пишет Cloudflare.
В своем заявлении для The Verge представитель Perplexity Джесси Дуэр (Jesse Dwyer) назвал отчет Cloudflare «пиар-трюком», добавив, что «в этой публикации в блоге много недопониманий». Cloudflare с тех пор исключил Perplexity из списка проверенных ботов и внедрил методы блокировки «скрытного краулинга» Perplexity. Генеральный директор Cloudflare Мэтью Принс (Matthew Prince) неоднократно высказывался о «экзистенциальной угрозе», которую искусственный интеллект представляет для издателей. В прошлом месяце компания начала разрешать веб-сайтам требовать оплату от AI-компаний за сканирование их контента и начала блокировать AI-краулеров по умолчанию.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...