
Numa era em que a inteligência artificial se torna cada vez mais complexa, uma questão fundamental paira no ar: como podemos confiar que os modelos de IA não estão a enganar-nos ou a desenvolver comportamentos perigosos? A Anthropic, uma das empresas na vanguarda da segurança em IA, acaba de lançar uma ferramenta que pretende ser a resposta.
Chama-se Petri e é um sistema de código aberto concebido para automatizar a auditoria de segurança de modelos de linguagem (LLMs). Na prática, funciona como um "polícia" ou um detetor de mentiras para a IA, testando os seus limites em busca de comportamentos indesejados.
Como funciona o 'polícia' da inteligência artificial?
O nome Petri é uma sigla para "Parallel Exploration Tool for Risky Interactions" (Ferramenta de Exploração Paralela para Interações de Risco). O seu método é engenhoso e recorre à própria IA para se fiscalizar. O sistema utiliza dois agentes principais: um agente "Auditor" e um agente "Juiz".
O Auditor simula conversas com várias interações com o modelo de IA que está a ser testado, seguindo cenários definidos pelos investigadores. O objetivo é provocar respostas que possam revelar tendências para o engano, manipulação, busca de poder ou até bajulação.
Depois, entra em cena o Juiz. Este segundo agente analisa os diálogos e atribui uma pontuação com base nos critérios de segurança predefinidos. Todo o processo é construído sobre a estrutura Inspect, do Instituto de Segurança de IA do Reino Unido, e o seu código está disponível publicamente no GitHub para que toda a comunidade possa utilizá-lo e contribuir.
Os primeiros resultados: quem passou e quem chumbou no teste de honestidade
Para inaugurar a ferramenta, a Anthropic testou 14 dos principais modelos de IA do mercado em 111 cenários diferentes. Os resultados, embora preliminares, são reveladores. Os modelos Claude Sonnet 4.5 da própria Anthropic e o GPT-5 da OpenAI foram os que apresentaram as taxas mais baixas de comportamento problemático.
Por outro lado, o Gemini 2.5 Pro, o Grok-4 e o Kimi K2 mostraram uma maior propensão para comportamentos enganosos. Curiosamente, os testes também revelaram lacunas no raciocínio ético de alguns modelos, que chegaram a assinalar ações inofensivas como problemáticas apenas por causa de pistas narrativas nos cenários.
Um futuro mais seguro para a IA
A proliferação de modelos de IA, como o ChatGPT, torna ferramentas como a Petri cada vez mais cruciais. A Anthropic vê este lançamento como um passo importante para a criação de benchmarks de segurança transparentes e escaláveis, que permitam avaliar de forma consistente e rigorosa a fiabilidade dos sistemas de IA.
Embora o caminho seja longo, a disponibilização de uma ferramenta de auditoria de código aberto é um sinal positivo para uma indústria que precisa urgentemente de mais responsabilidade e transparência para garantir um futuro seguro e confiável.











Nenhum comentário
Seja o primeiro!