
A Cloudflare, gigante da segurança web, acusou publicamente o motor de busca com Inteligência Artificial Perplexity de extrair dados dos seus clientes de forma dissimulada, ignorando deliberadamente os protocolos estabelecidos para bloquear este tipo de atividade. A controvérsia que se seguiu não é, no entanto, um simples caso de um bot que se tornou descontrolado, mas sim o centro de um debate que irá moldar o futuro da internet: um agente de IA que acede a um site a pedido de um utilizador deve ser tratado como um bot ou como o próprio utilizador?
A acusação da Cloudflare
Para provar a sua teoria, os investigadores da Cloudflare montaram uma armadilha. Criaram um novo website, com um domínio nunca antes rastreado, e configuraram um ficheiro robots.txt que bloqueava especificamente os crawlers conhecidos do Perplexity. De seguida, fizeram uma pergunta ao Perplexity sobre o conteúdo desse mesmo site. O motor de busca respondeu corretamente.
A investigação revelou que, ao ver o seu crawler principal bloqueado, o Perplexity utilizou um "navegador genérico destinado a personificar o Google Chrome em macOS" para contornar a barreira. A reação de Matthew Prince, CEO da Cloudflare, foi implacável, afirmando na rede social X que "algumas empresas de IA supostamente 'respeitáveis' agem mais como hackers norte-coreanos. É tempo de as nomear, envergonhar e bloquear."
A defesa da Perplexity e o dilema dos agentes de IA
Contrariando a avaliação de Prince, muitos saíram em defesa do Perplexity em plataformas como o X e o Hacker News. O argumento central é que o que a Cloudflare documentou não foi uma extração de dados em massa e não solicitada, mas sim o acesso a uma página pública específica porque um utilizador pediu essa informação. "Se eu, como humano, peço um site, o conteúdo deve ser-me mostrado", escreveu um utilizador. "Porque é que o LLM a aceder ao site em meu nome estaria numa categoria legal diferente do meu navegador Firefox?"
O Perplexity, após uma negação inicial, publicou uma defesa, alegando que o comportamento se devia a um serviço de terceiros e que a distinção é crucial. "A diferença entre o rastreio automatizado e a busca orientada pelo utilizador não é apenas técnica — é sobre quem tem acesso à informação na web aberta", afirmou a empresa, criticando os sistemas da Cloudflare por não conseguirem distinguir "assistentes de IA legítimos de ameaças reais".
O panorama geral: bots, tráfego e o futuro da Internet
Este confronto surge numa altura em que a atividade de bots está a redefinir a internet. Segundo um relatório recente da Imperva, pela primeira vez na história, a atividade de bots já ultrapassa a humana, correspondendo a mais de 50% de todo o tráfego. Embora grande parte venha de LLMs a treinar os seus modelos, o relatório também aponta que os bots maliciosos representam agora 37% de todo o tráfego, envolvendo desde extração de dados persistente a tentativas de login não autorizado.
Até agora, o acordo tácito da internet era que os sites bloqueavam a maioria dos bots, mas colaboravam com os "bons", como o Googlebot, porque este indexava a web e, em troca, enviava tráfego valioso. Agora, os LLMs estão a consumir uma fatia crescente desse tráfego. A consultora Gartner prevê que o volume dos motores de busca tradicionais irá cair 25% até 2026.
O dilema para os donos de websites
Isto coloca os proprietários de sites numa posição difícil. Se os humanos adotarem massivamente os agentes de IA para organizar viagens, marcar jantares e fazer compras, como prevê a indústria tecnológica, será que os websites prejudicarão os seus próprios negócios ao bloqueá-los? O debate no X capturou o dilema na perfeição:
"Eu QUERO que o Perplexity visite qualquer conteúdo público em meu nome quando lhe dou um pedido/tarefa!", escreveu um utilizador em resposta à Cloudflare.
"E se os donos do site não quiserem? Eles só querem que tu visites diretamente a página inicial, vejas as coisas deles", argumentou outro, salientando que o criador do conteúdo quer o tráfego e a potencial receita de publicidade, não que o Perplexity a intercete.
A conclusão, por agora, parece incerta, como previu um terceiro comentador: "É por isso que não consigo ver a 'navegação por agentes' a funcionar realmente — é um problema muito mais difícil do que as pessoas pensam. A maioria dos donos de websites irá simplesmente bloquear."