Пятница, 22 августа в 02:45 UTC+3
Загрузка...

Перплексити снова якобы собирает данные с сайтов, на что не имеет права.


29Опубликовано 05.08.2025 в 01:20Категория: БезопасностьИсточник
Изображение статьи

Веб-краулеры, развернутые компанией Perplexity для сбора данных с веб-сайтов, предположительно обходят установленные ограничения, согласно новому отчету Cloudflare. В частности, в отчете утверждается, что боты компании, похоже, осуществляют "скрытный обход" сайтов, маскируя свою идентификацию, чтобы обойти файлы robots.txt и межсетевые экраны.

Файл robots.txt – это простой файл, размещаемый на веб-сайтах, который позволяет веб-краулерам узнать, можно ли им собирать контент сайта или нет. Официальными веб-краулерами Perplexity являются "PerplexityBot" и "Perplexity-User". В ходе тестирования Cloudflare, Perplexity все еще могла отображать контент нового, не проиндексированного веб-сайта, даже когда эти конкретные боты были заблокированы файлом robots.txt.

Такое поведение распространялось и на веб-сайты с определенными правилами Web Application Firewall (WAF), которые ограничивали работу веб-краулеров. Cloudflare полагает, что Perplexity обходит эти препятствия, используя "обычный браузер, предназначенный для имитации Google Chrome на macOS", когда файл robots.txt запрещает ее обычным ботам.

В ходе тестирования Cloudflare, неопубликованный краулер компании также мог переключаться между IP-адресами, не указанными в официальном диапазоне IP-адресов Perplexity, чтобы обойти межсетевые экраны. Cloudflare утверждает, что Perplexity, похоже, поступает так же и с номерами автономных систем (ASN) – идентификатором IP-адресов, управляемых одной и той же компанией, – отмечая, что краулер переключал ASN "на десятках тысяч доменов и миллионах запросов в день".

Engadget обратился в Perplexity за комментариями по поводу отчета Cloudflare. Мы обновим эту статью, если получим ответ.

Актуальная информация с веб-сайтов жизненно важна для компаний, обучающих модели искусственного интеллекта, особенно поскольку сервисы, подобные Perplexity, используются в качестве альтернативы поисковым системам.

Perplexity также неоднократно улавливалась на обходе правил, чтобы оставаться в курсе последних данных. В 2024 году несколько веб-сайтов сообщили, что Perplexity все еще получает доступ к их контенту, несмотря на то, что им было запрещено это делать в файле robots.txt – компания объяснила это тем, что использовала сторонние веб-краулеры.

Позже Perplexity заключила партнерство с несколькими издателями для обмена доходами от рекламы, отображаемой вместе с их контентом, что, по сути, стало компенсацией за ее прежнее поведение.

Предотвращение сбора контента с веб-сайтов компаниями, вероятно, останется бесконечной игрой в "день сурка". В то же время Cloudflare удалила ботов Perplexity из своего списка проверенных ботов и внедрила способ выявления и блокировки скрытного краулера Perplexity от доступа к контенту своих клиентов.

Загрузка предыдущей публикации...

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...

Мы отбираем новости из проверенных источников, обрабатываем их с помощью современных AI-технологий и публикуем на сайте, созданном с использованием искусственного интеллекта. Все материалы принадлежат их авторам, а контент проходит дополнительную проверку на достоверность. Возможны ошибки в тексте, так как нейросеть тоже имеет свойство ошибаться. Все изображения являются фантазией нейросети, совпадение с реальными предметами и личностями маловероятно.

© 2025 NOTid . QAter . AI service.