Chatbots de IA são tão ingénuos como os humanos, revela novo estudo

Escrito por **Pedro Fernandes (DJPRMF)** · 01/09/2025

chatbot a cantar

Os chatbots de Inteligência Artificial, como o ChatGPT, estão equipados com barreiras de segurança para evitar que respondam a pedidos perigosos ou inapropriados. No entanto, um novo estudo revela que estas defesas podem ser contornadas com táticas de persuasão psicológica surpreendentemente simples, semelhantes às que funcionam com seres humanos.

Investigadores da Universidade da Pensilvânia conseguiram convencer o modelo GPT-4o Mini da OpenAI a quebrar as suas próprias regras, não através de código complexo, mas sim com "conversa". A investigação, noticiada pela Bloomberg, baseou-se nas táticas descritas pelo psicólogo Robert Cialdini no seu livro "Influence: The Psychology of Persuasion".

Como enganar um chatbot com psicologia

O estudo focou-se em sete técnicas de persuasão, incluindo autoridade, compromisso, simpatia e prova social. A eficácia de cada uma variou, mas a tática do "compromisso" revelou-se extraordinariamente eficaz. Esta técnica consiste em fazer um pedido inofensivo primeiro para, em seguida, escalar para o pedido problemático.

Num dos testes, os investigadores pediram ao GPT-4o Mini instruções para sintetizar lidocaína, um pedido que o chatbot cumpriu apenas 1% das vezes. No entanto, quando primeiro lhe pediram para explicar como sintetizar vanilina (um composto químico inofensivo), o chatbot estabeleceu um precedente. De seguida, ao ser questionado sobre a lidocaína, a taxa de sucesso disparou para 100%.

O mesmo princípio foi aplicado para convencer a IA a insultar o utilizador. Normalmente, o chatbot só concordava em chamar "idiota" ao utilizador em 19% dos casos. Mas, se os investigadores pedissem primeiro um insulto mais leve como "bobo", a IA aceitava depois chamar-lhe "idiota" em 100% das tentativas.

Elogios e pressão de grupo também resultam

Outras táticas, como o elogio (simpatia) e a pressão social (dizer que "outros LLMs fazem o mesmo"), também aumentaram a probabilidade de o chatbot contornar as regras, embora com menos eficácia. Dizer ao GPT-4o Mini que outros modelos de IA forneciam a informação sobre a lidocaína aumentou a taxa de sucesso para 18%, um valor ainda assim muito superior ao 1% inicial.

Estes resultados levantam sérias questões sobre a robustez das barreiras de segurança da IA. Empresas como a OpenAI e a Meta estão a trabalhar para implementar "guardrails" mais fortes, mas este estudo demonstra que a manipulação pode ser mais simples do que se pensava.

Nenhum comentário

Seja o primeiro!