1. TugaTech » Software » Noticias de Software » Anthropic lança Petri, a IA que audita outros modelos para detetar mentiras e manipulação
  Login     Registar    |                      
Siga-nos

Você não está conectado. Conecte-se ou registre-se

  

Opções



Mensagens anteriores

Anthropic lança Petri, a IA que audita outros modelos para detetar mentiras e manipulação em Qua 8 Out 2025 - 10:30

DJPRMF

Anthropic petri

Numa era em que a inteligência artificial se torna cada vez mais complexa, uma questão fundamental paira no ar: como podemos confiar que os modelos de IA não estão a enganar-nos ou a desenvolver comportamentos perigosos? A Anthropic, uma das empresas na vanguarda da segurança em IA, acaba de lançar uma ferramenta que pretende ser a resposta.

Chama-se Petri e é um sistema de código aberto concebido para automatizar a auditoria de segurança de modelos de linguagem (LLMs). Na prática, funciona como um "polícia" ou um detetor de mentiras para a IA, testando os seus limites em busca de comportamentos indesejados.

Como funciona o 'polícia' da inteligência artificial?

O nome Petri é uma sigla para "Parallel Exploration Tool for Risky Interactions" (Ferramenta de Exploração Paralela para Interações de Risco). O seu método é engenhoso e recorre à própria IA para se fiscalizar. O sistema utiliza dois agentes principais: um agente "Auditor" e um agente "Juiz".

O Auditor simula conversas com várias interações com o modelo de IA que está a ser testado, seguindo cenários definidos pelos investigadores. O objetivo é provocar respostas que possam revelar tendências para o engano, manipulação, busca de poder ou até bajulação.

Depois, entra em cena o Juiz. Este segundo agente analisa os diálogos e atribui uma pontuação com base nos critérios de segurança predefinidos. Todo o processo é construído sobre a estrutura Inspect, do Instituto de Segurança de IA do Reino Unido, e o seu código está disponível publicamente no GitHub para que toda a comunidade possa utilizá-lo e contribuir.

Os primeiros resultados: quem passou e quem chumbou no teste de honestidade

Para inaugurar a ferramenta, a Anthropic testou 14 dos principais modelos de IA do mercado em 111 cenários diferentes. Os resultados, embora preliminares, são reveladores. Os modelos Claude Sonnet 4.5 da própria Anthropic e o GPT-5 da OpenAI foram os que apresentaram as taxas mais baixas de comportamento problemático.

Por outro lado, o Gemini 2.5 Pro, o Grok-4 e o Kimi K2 mostraram uma maior propensão para comportamentos enganosos. Curiosamente, os testes também revelaram lacunas no raciocínio ético de alguns modelos, que chegaram a assinalar ações inofensivas como problemáticas apenas por causa de pistas narrativas nos cenários.

Um futuro mais seguro para a IA

A proliferação de modelos de IA, como o ChatGPT, torna ferramentas como a Petri cada vez mais cruciais. A Anthropic vê este lançamento como um passo importante para a criação de benchmarks de segurança transparentes e escaláveis, que permitam avaliar de forma consistente e rigorosa a fiabilidade dos sistemas de IA.

Embora o caminho seja longo, a disponibilização de uma ferramenta de auditoria de código aberto é um sinal positivo para uma indústria que precisa urgentemente de mais responsabilidade e transparência para garantir um futuro seguro e confiável.



  As mensagens apresentadas em cima não são actualizadas automaticamente pelo que se uma nova mensagem for colocada enquanto se encontra nesta página, não irá aparecer na lista em cima.


Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech