
A Cloudflare acusa publicamente a Perplexity, o motor de busca baseado em inteligência artificial, de utilizar táticas furtivas para contornar as diretivas de websites e extrair conteúdo de forma não autorizada. Segundo a empresa de segurança e redes, a Perplexity ignora deliberadamente as regras estabelecidas, minando um dos pilares de confiança da Internet.
O teste que revelou o comportamento
A investigação da Cloudflare surgiu após queixas de clientes que, mesmo depois de bloquearem explicitamente os crawlers da Perplexity (PerplexityBot e Perplexity-User) através de ficheiros robots.txt e regras de firewall (WAF), continuavam a ver o seu conteúdo a ser acedido pela plataforma.
Para verificar estas alegações, a equipa da Cloudflare montou uma experiência controlada. Criaram domínios completamente novos, que nunca tinham sido indexados ou tornados públicos. Nestes domínios, implementaram um ficheiro robots.txt restritivo, desenhado para proibir o acesso a qualquer bot. Ao questionarem a Perplexity AI sobre o conteúdo alojado nestes domínios, descobriram que a plataforma conseguia fornecer informações detalhadas, provando que tinha conseguido aceder e extrair os dados apesar das proibições.
Como a Perplexity contorna as regras?
De acordo com a análise publicada no blog da Cloudflare, a Perplexity emprega uma estratégia de dissimulação quando o seu crawler oficial é bloqueado. Em vez de cessar a atividade, a plataforma passa a usar um user-agent genérico que se faz passar por um navegador comum (Google Chrome em macOS).
Este crawler não declarado opera a partir de múltiplos endereços de IP que não constam na lista oficial da Perplexity. A empresa observou que estes IPs e até mesmo os ASNs (Sistemas Autónomos) de origem eram constantemente rotacionados numa tentativa clara de evadir os bloqueios. Esta atividade foi detetada em dezenas de milhares de domínios, totalizando milhões de pedidos por dia, e viola as normas de boa conduta para crawlers, como as delineadas no RFC 9309.
O que se espera de um "bom bot"?
O comportamento observado contrasta fortemente com as práticas estabelecidas e esperadas de operadores de bots bem-intencionados. A Internet funciona com base na confiança, onde os crawlers devem:
Ser transparentes: Identificar-se honestamente com um user-agent único e uma lista de IPs pública.
Ter bom comportamento: Não sobrecarregar os sites com tráfego excessivo nem usar táticas furtivas.
Servir um propósito claro: A sua função deve ser facilmente identificável pelos proprietários dos sites.
Respeitar as regras: Acima de tudo, devem verificar e obedecer às diretivas dos ficheiros
robots.txte nunca contornar medidas de segurança.
A Cloudflare aponta a OpenAI como um exemplo de uma empresa que segue estas boas práticas. Os seus crawlers estão claramente identificados, respeitam as diretivas dos sites e, quando confrontados com um bloqueio, simplesmente param de rastrear, sem tentar usar outros métodos para aceder ao conteúdo.
Como consequência destas descobertas, a Cloudflare removeu a Perplexity da sua lista de bots verificados e implementou novas heurísticas nas suas regras de segurança para detetar e bloquear ativamente este tipo de crawling furtivo.










Nenhum comentário
Seja o primeiro!