Apple e Cambridge criam IA para julgar outras IAs com uma precisão impressionante

Escrito por **Pedro Fernandes (DJPRMF)** · 24/07/2025

Logo da Apple em edifício no centro de cidade

Investigadores e programadores de inteligência artificial enfrentam um desafio crescente: como avaliar de forma fiável as respostas geradas por modelos de linguagem de grande escala (LLMs)? A solução tem passado por usar outras IAs como "juízes", mas a sua eficácia diminui em tarefas complexas. Agora, uma nova abordagem desenvolvida pela Apple em colaboração com a Universidade de Cambridge promete revolucionar este processo, conferindo aos juízes de IA ferramentas externas para melhorar a sua capacidade de avaliação.

O problema de avaliar uma IA

A avaliação da qualidade das respostas de um LLM é uma tarefa complexa e cheia de nuances. Os avaliadores humanos, apesar de serem o padrão, enfrentam limitações como o cansaço, os prazos apertados e a tendência para serem influenciados mais pelo estilo da escrita do que pela precisão factual. Por outro lado, os juízes de IA, embora rápidos, têm dificuldades em verificar factos em textos longos, avaliar código de programação avançado ou validar problemas matemáticos complexos.

Um "agente avaliador" com ferramentas externas

Para superar estas barreiras, a equipa de investigação criou um sistema engenhoso. A solução é um "Agente de Avaliação" que funciona de forma autónoma, primeiro analisando a resposta que precisa de julgar para determinar se necessita de ajuda externa. Conforme detalhado no artigo de investigação publicado, o processo segue três passos fundamentais: uma avaliação inicial do domínio, o uso de ferramentas e a decisão final.

O sistema está equipado com um arsenal de ferramentas especializadas:

Verificação de factos: Utiliza pesquisa na web para validar factos individuais dentro de uma resposta.
Execução de código: Recorre ao interpretador de código da OpenAI para correr e verificar a correção do código apresentado.
Verificador matemático: Uma versão especializada da ferramenta de execução de código, focada na validação de operações matemáticas e aritméticas.

Se o agente determinar que nenhuma destas ferramentas é útil para a tarefa em mãos, o sistema recorre ao método de avaliação padrão do LLM, evitando processamento desnecessário e garantindo que o desempenho em tarefas simples não é prejudicado.

Resultados promissores superam até os humanos

A implementação deste sistema resultou em melhorias notáveis. Na verificação de factos em textos longos, a concordância do agente com as anotações de referência aumentou significativamente. Em tarefas de programação, a abordagem baseada no agente melhorou drasticamente o desempenho em todos os cenários.

No que toca a desafios matemáticos, os agentes melhoraram o desempenho em comparação com algumas das bases de referência, embora a concordância geral tenha permanecido relativamente modesta, em torno dos 56%. Um dos resultados mais surpreendentes foi que, na análise de respostas factuais longas, a precisão do agente de IA foi superior à dos avaliadores humanos.

O futuro é em código aberto

Esta estrutura foi concebida para ser extensível, o que significa que, no futuro, outras ferramentas poderão ser integradas para continuar a melhorar os sistemas de avaliação de LLMs. A Apple já anunciou que o código desta inovadora framework será disponibilizado em código aberto no seu GitHub, embora ainda não tenha sido publicado. Este passo irá permitir que toda a comunidade de IA beneficie e contribua para a evolução de juízes de IA mais justos e precisos.

Nenhum comentário

Seja o primeiro!