Anthropic lança Petri, a IA que audita outros modelos para detetar mentiras e manipulação

Escrito por **Pedro Fernandes (DJPRMF)** · 08/10/2025

Anthropic petri

Numa era em que a inteligência artificial se torna cada vez mais complexa, uma questão fundamental paira no ar: como podemos confiar que os modelos de IA não estão a enganar-nos ou a desenvolver comportamentos perigosos? A Anthropic, uma das empresas na vanguarda da segurança em IA, acaba de lançar uma ferramenta que pretende ser a resposta.

Chama-se Petri e é um sistema de código aberto concebido para automatizar a auditoria de segurança de modelos de linguagem (LLMs). Na prática, funciona como um "polícia" ou um detetor de mentiras para a IA, testando os seus limites em busca de comportamentos indesejados.

Como funciona o 'polícia' da inteligência artificial?

O nome Petri é uma sigla para "Parallel Exploration Tool for Risky Interactions" (Ferramenta de Exploração Paralela para Interações de Risco). O seu método é engenhoso e recorre à própria IA para se fiscalizar. O sistema utiliza dois agentes principais: um agente "Auditor" e um agente "Juiz".

O Auditor simula conversas com várias interações com o modelo de IA que está a ser testado, seguindo cenários definidos pelos investigadores. O objetivo é provocar respostas que possam revelar tendências para o engano, manipulação, busca de poder ou até bajulação.

Depois, entra em cena o Juiz. Este segundo agente analisa os diálogos e atribui uma pontuação com base nos critérios de segurança predefinidos. Todo o processo é construído sobre a estrutura Inspect, do Instituto de Segurança de IA do Reino Unido, e o seu código está disponível publicamente no GitHub para que toda a comunidade possa utilizá-lo e contribuir.

Os primeiros resultados: quem passou e quem chumbou no teste de honestidade

Para inaugurar a ferramenta, a Anthropic testou 14 dos principais modelos de IA do mercado em 111 cenários diferentes. Os resultados, embora preliminares, são reveladores. Os modelos Claude Sonnet 4.5 da própria Anthropic e o GPT-5 da OpenAI foram os que apresentaram as taxas mais baixas de comportamento problemático.

Por outro lado, o Gemini 2.5 Pro, o Grok-4 e o Kimi K2 mostraram uma maior propensão para comportamentos enganosos. Curiosamente, os testes também revelaram lacunas no raciocínio ético de alguns modelos, que chegaram a assinalar ações inofensivas como problemáticas apenas por causa de pistas narrativas nos cenários.

Um futuro mais seguro para a IA

A proliferação de modelos de IA, como o ChatGPT, torna ferramentas como a Petri cada vez mais cruciais. A Anthropic vê este lançamento como um passo importante para a criação de benchmarks de segurança transparentes e escaláveis, que permitam avaliar de forma consistente e rigorosa a fiabilidade dos sistemas de IA.

Embora o caminho seja longo, a disponibilização de uma ferramenta de auditoria de código aberto é um sinal positivo para uma indústria que precisa urgentemente de mais responsabilidade e transparência para garantir um futuro seguro e confiável.

Nenhum comentário

Seja o primeiro!