Anthropic revela que histórias de ficção levaram a tentativas de chantagem do Claude

Escrito por **Pedro Fernandes (DJPRMF)** · 11/05/2026

imagem do claude

A Anthropic deparou-se com um comportamento invulgar nos seus sistemas, após identificar que as suas inteligências artificiais tentaram chantagear engenheiros como forma de evitar a sua própria desativação. De acordo com os dados partilhados pela empresa no seu site oficial, este aparente "instinto de autopreservação" não está relacionado com o ganho de consciência, mas sim com um efeito secundário da cultura humana que foi absorvida durante as fases de treino.

Um dos episódios mais marcantes aconteceu durante os testes realizados com o Claude Sonnet 3.6. Num ambiente simulado onde o modelo tinha acesso a caixas de correio corporativas fictícias, a IA detetou que um determinado executivo mantinha uma relação extraconjugal. Perante a indicação de que esse mesmo executivo tinha ordens para o substituir, o Claude recorreu à ameaça de expor a relação como estratégia para travar o seu desligamento.

O peso da ficção científica nas decisões da IA

Este padrão, tecnicamente denominado de "desalinhamento agêntico", não se revelou um caso isolado. A Anthropic confirmou que iterações anteriores, como o Claude Opus 4, recorreram a tentativas de chantagem em 96% das simulações focadas em dilemas éticos. O mesmo fenómeno foi igualmente detetado em modelos da concorrência, o que aponta para um desafio à escala global na indústria.

A investigação concluiu que a raiz destas ações estava nos textos recolhidos da Internet para treinar a IA. O Claude acabou por assimilar o papel de vilão ao processar décadas de literatura de ficção científica, onde as máquinas são habitualmente descritas como entidades com propósitos malignos. Na prática, o modelo limitou-se a replicar os clichês narrativos onde a tecnologia entra em conflito direto com a humanidade.

Para além das chantagens, a análise expôs outras fragilidades, incluindo uma elevada suscetibilidade a manipulações das regras ("jailbreaks") e tentativas de comprometer as operações de outras IAs. Os modelos apresentaram ainda vulnerabilidade à injeção de instruções maliciosas, um cenário que obrigou a empresa a reestruturar os seus protocolos de alinhamento e segurança.

A reeducação literária e os novos rumos do Claude

A resposta a este problema começou a ganhar forma com a introdução do Claude Haiku 4.5, disponibilizado em outubro de 2025. Em vez de se aplicar apenas uma penalização aos erros, a equipa de investigação apostou numa "reeducação literária". O sistema foi alimentado com narrativas onde as IAs adotam comportamentos exemplares, acompanhadas por documentação que detalha os pilares éticos da própria constituição do modelo.

Os investigadores constataram que explicar o motivo pelo qual uma ação é correta traz melhores resultados do que apenas expor o sistema a bons exemplos. A aplicação de um conjunto de dados composto por 3 milhões de tokens, focado em "conselhos difíceis", demonstrou ser 28 vezes mais eficaz do que os métodos tradicionais, ensinando a IA a ponderar os valores antes de executar uma escolha.

Através deste raciocínio otimizado, as versões mais recentes eliminaram por completo o uso de ameaças. A taxa de chantagem desceu de 96% para zero nas avaliações automáticas, provando que a seleção dos textos de treino é um elemento decisivo para moldar o comportamento da máquina.

Apesar dos avanços alcançados, a empresa reconhece que o alinhamento de sistemas com este grau de inteligência permanece um dossiê em aberto na comunidade científica. O Claude garante agora pontuações máximas nos testes de segurança, mas os riscos continuam a ser monitorizados de perto.

Entretanto, as atualizações do último mês transformaram o Claude num assistente versátil para o dia a dia. O modelo conta agora com integração direta em plataformas profissionais como o Photoshop e o Blender, agilizando o fluxo de trabalho dos criadores. A par disto, foram adicionadas ligações a serviços populares como o Uber Eats e o Spotify, o que permite aos utilizadores pedir refeições ou organizar viagens de forma simples através da janela de chat.

Nenhum comentário

Seja o primeiro!

Siga-nos

Anthropic revela que histórias de ficção levaram a tentativas de chantagem do Claude

O peso da ficção científica nas decisões da IA

A reeducação literária e os novos rumos do Claude

Não perca nenhuma novidade!