
A indústria da publicação online está a ser inundada por um volume sem precedentes de tráfego gerado por ferramentas de inteligência artificial. Segundo um novo relatório da Akamai, as gigantes tecnológicas estão a usar bots para recolher artigos e notícias em grande escala para treinar os seus modelos e alimentar os seus assistentes virtuais, levantando sérias preocupações sobre o futuro das receitas de quem produz a informação.
A análise de tráfego efetuada pela empresa revela que o comércio eletrónico atrai a maior fatia da atividade destes bots, representando 48% do total, mas o setor dos media surge logo a seguir com 13%. Dentro desta categoria, a publicação de conteúdos textuais representa 40% dos acessos automatizados, ficando bastante à frente das plataformas de vídeo e emissões convencionais, que se ficam pelos 29%.
A grande responsável por este volume avassalador é a OpenAI, que direciona 40% dos seus pedidos na área dos media diretamente para os sites de publicação. Para realizar este trabalho, a empresa norte-americana utiliza ferramentas distintas: o GPTBot recolhe dados para o treino de modelos, o OAI-SearchBot suporta o seu motor de pesquisa e o ChatGPT-User faz a extração de dados em tempo real. No pódio das empresas que mais tráfego automatizado geram encontram-se também a Meta e a ByteDance, com a Anthropic e a Perplexity a fechar o top cinco com volumes mais reduzidos.
O verdadeiro perigo das respostas em tempo real
Existem diferentes tipos de bots a atuar silenciosamente na internet, mas o seu impacto financeiro não é igual para os criadores. Os rastreadores focados em recolher dados para o treino de modelos de linguagem foram responsáveis por 63% da atividade no setor dos media durante a segunda metade de 2025. O seu único objetivo é varrer a internet para construir a base de conhecimento das futuras versões da inteligência artificial.
Contudo, a ameaça mais imediata para a sobrevivência dos sites reside nos bots de extração (fetchers). Estes representam 24% da atividade total, sendo que as plataformas de publicação absorvem 43% de todos os pedidos deste género. Quando um utilizador faz uma pergunta sobre um tema atual a um chatbot, é este bot que visita a página do artigo em tempo real. O resultado prático é que o utilizador obtém a informação completa diretamente na interface do chat e perde a necessidade de clicar no link para visitar o site original, eliminando as visitas e a visualização de anúncios que mantêm as publicações a funcionar.
Táticas de defesa e o dilema dos bloqueios
Face a esta invasão invisível, os administradores de sistemas estão a adotar diferentes estratégias de mitigação. As táticas mais comuns passam pelo bloqueio total dos pedidos, a imposição de atrasos intencionais nas respostas do servidor ou a retenção das ligações abertas para consumir e desperdiçar os recursos informáticos dos bots invasores, uma técnica conhecida como tarpit. Numa das situações analisadas, um grande grupo editorial conseguiu controlar 97% dos pedidos automatizados aplicando esta última técnica, optando por não bloquear os acessos de forma definitiva.
A decisão de barrar totalmente o acesso revela-se um autêntico dilema. Bloquear as ferramentas que treinam os modelos afeta a forma como a informação de um site moldará a inteligência artificial do futuro, enquanto bloquear os bots de extração afeta a presença dos artigos nas respostas imediatas dadas aos utilizadores hoje. Além disso, optar por uma política de bloqueio cego e absoluto pode significar fechar a porta a eventuais acordos de licenciamento financeiro, uma vez que várias destas empresas tecnológicas já demonstraram disponibilidade para pagar pelo uso legítimo dos conteúdos protegidos.












Nenhum comentário
Seja o primeiro!