Загрузка...

Перплексити снова якобы собирает данные с сайтов, на что не имеет права.

116Опубликовано 05.08.2025 в 01:20Категория: БезопасностьИсточник

Веб-краулеры, развернутые компанией Perplexity для сбора данных с веб-сайтов, предположительно обходят установленные ограничения, согласно новому отчету Cloudflare. В частности, в отчете утверждается, что боты компании, похоже, осуществляют "скрытный обход" сайтов, маскируя свою идентификацию, чтобы обойти файлы robots.txt и межсетевые экраны.

Файл robots.txt – это простой файл, размещаемый на веб-сайтах, который позволяет веб-краулерам узнать, можно ли им собирать контент сайта или нет. Официальными веб-краулерами Perplexity являются "PerplexityBot" и "Perplexity-User". В ходе тестирования Cloudflare, Perplexity все еще могла отображать контент нового, не проиндексированного веб-сайта, даже когда эти конкретные боты были заблокированы файлом robots.txt.

Такое поведение распространялось и на веб-сайты с определенными правилами Web Application Firewall (WAF), которые ограничивали работу веб-краулеров. Cloudflare полагает, что Perplexity обходит эти препятствия, используя "обычный браузер, предназначенный для имитации Google Chrome на macOS", когда файл robots.txt запрещает ее обычным ботам.

В ходе тестирования Cloudflare, неопубликованный краулер компании также мог переключаться между IP-адресами, не указанными в официальном диапазоне IP-адресов Perplexity, чтобы обойти межсетевые экраны. Cloudflare утверждает, что Perplexity, похоже, поступает так же и с номерами автономных систем (ASN) – идентификатором IP-адресов, управляемых одной и той же компанией, – отмечая, что краулер переключал ASN "на десятках тысяч доменов и миллионах запросов в день".

Engadget обратился в Perplexity за комментариями по поводу отчета Cloudflare. Мы обновим эту статью, если получим ответ.

Актуальная информация с веб-сайтов жизненно важна для компаний, обучающих модели искусственного интеллекта, особенно поскольку сервисы, подобные Perplexity, используются в качестве альтернативы поисковым системам.

Perplexity также неоднократно улавливалась на обходе правил, чтобы оставаться в курсе последних данных. В 2024 году несколько веб-сайтов сообщили, что Perplexity все еще получает доступ к их контенту, несмотря на то, что им было запрещено это делать в файле robots.txt – компания объяснила это тем, что использовала сторонние веб-краулеры.

Позже Perplexity заключила партнерство с несколькими издателями для обмена доходами от рекламы, отображаемой вместе с их контентом, что, по сути, стало компенсацией за ее прежнее поведение.

Предотвращение сбора контента с веб-сайтов компаниями, вероятно, останется бесконечной игрой в "день сурка". В то же время Cloudflare удалила ботов Perplexity из своего списка проверенных ботов и внедрила способ выявления и блокировки скрытного краулера Perplexity от доступа к контенту своих клиентов.

Perplexity Cloudflare веб-краулеры robots.txt обход ограничений искусственный интеллект ИИ межсетевые экраны WAF ASN боты блокировка защита контента данные индексация онлайн-реклама партнерство с издателями

Интересные статьи

Нет статей для отображения

Предыдущая статья

Загрузка предыдущей публикации...

Следующая статья

Загрузка следующей публикации...

Предыдущие новости в категории

Загрузка предыдущих новостей...

Следующие новости в категории

Загрузка следующих новостей...