Загрузка предыдущей публикации...
Загрузка предыдущих новостей...
Веб-краулеры, развернутые компанией Perplexity для сбора данных с веб-сайтов, предположительно обходят установленные ограничения, согласно новому отчету Cloudflare. В частности, в отчете утверждается, что боты компании, похоже, осуществляют "скрытный обход" сайтов, маскируя свою идентификацию, чтобы обойти файлы robots.txt и межсетевые экраны.
Файл robots.txt – это простой файл, размещаемый на веб-сайтах, который позволяет веб-краулерам узнать, можно ли им собирать контент сайта или нет. Официальными веб-краулерами Perplexity являются "PerplexityBot" и "Perplexity-User". В ходе тестирования Cloudflare, Perplexity все еще могла отображать контент нового, не проиндексированного веб-сайта, даже когда эти конкретные боты были заблокированы файлом robots.txt.
Такое поведение распространялось и на веб-сайты с определенными правилами Web Application Firewall (WAF), которые ограничивали работу веб-краулеров. Cloudflare полагает, что Perplexity обходит эти препятствия, используя "обычный браузер, предназначенный для имитации Google Chrome на macOS", когда файл robots.txt запрещает ее обычным ботам.
В ходе тестирования Cloudflare, неопубликованный краулер компании также мог переключаться между IP-адресами, не указанными в официальном диапазоне IP-адресов Perplexity, чтобы обойти межсетевые экраны. Cloudflare утверждает, что Perplexity, похоже, поступает так же и с номерами автономных систем (ASN) – идентификатором IP-адресов, управляемых одной и той же компанией, – отмечая, что краулер переключал ASN "на десятках тысяч доменов и миллионах запросов в день".
Engadget обратился в Perplexity за комментариями по поводу отчета Cloudflare. Мы обновим эту статью, если получим ответ.
Актуальная информация с веб-сайтов жизненно важна для компаний, обучающих модели искусственного интеллекта, особенно поскольку сервисы, подобные Perplexity, используются в качестве альтернативы поисковым системам.
Perplexity также неоднократно улавливалась на обходе правил, чтобы оставаться в курсе последних данных. В 2024 году несколько веб-сайтов сообщили, что Perplexity все еще получает доступ к их контенту, несмотря на то, что им было запрещено это делать в файле robots.txt – компания объяснила это тем, что использовала сторонние веб-краулеры.
Позже Perplexity заключила партнерство с несколькими издателями для обмена доходами от рекламы, отображаемой вместе с их контентом, что, по сути, стало компенсацией за ее прежнее поведение.
Предотвращение сбора контента с веб-сайтов компаниями, вероятно, останется бесконечной игрой в "день сурка". В то же время Cloudflare удалила ботов Perplexity из своего списка проверенных ботов и внедрила способ выявления и блокировки скрытного краулера Perplexity от доступа к контенту своих клиентов.
Загрузка предыдущей публикации...
Загрузка следующей публикации...
Загрузка предыдущих новостей...
Загрузка следующих новостей...