1. TugaTech » Internet e Redes » Noticias da Internet e Mercados
  Login     Registar    |                      
Siga-nos

Bot em frente de computador

A indústria da publicação online está a ser inundada por um volume sem precedentes de tráfego gerado por ferramentas de inteligência artificial. Segundo um novo relatório da Akamai, as gigantes tecnológicas estão a usar bots para recolher artigos e notícias em grande escala para treinar os seus modelos e alimentar os seus assistentes virtuais, levantando sérias preocupações sobre o futuro das receitas de quem produz a informação.

A análise de tráfego efetuada pela empresa revela que o comércio eletrónico atrai a maior fatia da atividade destes bots, representando 48% do total, mas o setor dos media surge logo a seguir com 13%. Dentro desta categoria, a publicação de conteúdos textuais representa 40% dos acessos automatizados, ficando bastante à frente das plataformas de vídeo e emissões convencionais, que se ficam pelos 29%.

A grande responsável por este volume avassalador é a OpenAI, que direciona 40% dos seus pedidos na área dos media diretamente para os sites de publicação. Para realizar este trabalho, a empresa norte-americana utiliza ferramentas distintas: o GPTBot recolhe dados para o treino de modelos, o OAI-SearchBot suporta o seu motor de pesquisa e o ChatGPT-User faz a extração de dados em tempo real. No pódio das empresas que mais tráfego automatizado geram encontram-se também a Meta e a ByteDance, com a Anthropic e a Perplexity a fechar o top cinco com volumes mais reduzidos.

O verdadeiro perigo das respostas em tempo real

Existem diferentes tipos de bots a atuar silenciosamente na internet, mas o seu impacto financeiro não é igual para os criadores. Os rastreadores focados em recolher dados para o treino de modelos de linguagem foram responsáveis por 63% da atividade no setor dos media durante a segunda metade de 2025. O seu único objetivo é varrer a internet para construir a base de conhecimento das futuras versões da inteligência artificial.

Contudo, a ameaça mais imediata para a sobrevivência dos sites reside nos bots de extração (fetchers). Estes representam 24% da atividade total, sendo que as plataformas de publicação absorvem 43% de todos os pedidos deste género. Quando um utilizador faz uma pergunta sobre um tema atual a um chatbot, é este bot que visita a página do artigo em tempo real. O resultado prático é que o utilizador obtém a informação completa diretamente na interface do chat e perde a necessidade de clicar no link para visitar o site original, eliminando as visitas e a visualização de anúncios que mantêm as publicações a funcionar.

Táticas de defesa e o dilema dos bloqueios

Face a esta invasão invisível, os administradores de sistemas estão a adotar diferentes estratégias de mitigação. As táticas mais comuns passam pelo bloqueio total dos pedidos, a imposição de atrasos intencionais nas respostas do servidor ou a retenção das ligações abertas para consumir e desperdiçar os recursos informáticos dos bots invasores, uma técnica conhecida como tarpit. Numa das situações analisadas, um grande grupo editorial conseguiu controlar 97% dos pedidos automatizados aplicando esta última técnica, optando por não bloquear os acessos de forma definitiva.

A decisão de barrar totalmente o acesso revela-se um autêntico dilema. Bloquear as ferramentas que treinam os modelos afeta a forma como a informação de um site moldará a inteligência artificial do futuro, enquanto bloquear os bots de extração afeta a presença dos artigos nas respostas imediatas dadas aos utilizadores hoje. Além disso, optar por uma política de bloqueio cego e absoluto pode significar fechar a porta a eventuais acordos de licenciamento financeiro, uma vez que várias destas empresas tecnológicas já demonstraram disponibilidade para pagar pelo uso legítimo dos conteúdos protegidos.

Foto do Autor

Aficionado por tecnologia desde o tempo dos sistemas a preto e branco

Ver perfil do usuário Enviar uma mensagem privada Enviar um email Facebook do autor Twitter do autor Skype do autor

conectado
Encontrou algum erro neste artigo?



Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech