
Os resumos gerados por inteligência artificial no motor de pesquisa da Google apresentam informações incorretas em cerca de 10% das interações com os utilizadores. Segundo os dados de uma análise partilhada pela Ars Technica, esta margem de erro traduz-se em centenas de milhares de respostas falsas geradas a cada minuto, tendo em conta o volume massivo de consultas diárias na plataforma.
A taxa de erro e as alucinações do sistema
Para avaliar a fiabilidade da funcionalidade AI Overviews, o jornal New York Times aliou-se à startup Oumi e utilizou a ferramenta SimpleQA da OpenAI. Este sistema de avaliação baseia-se num conjunto de mais de 4.000 perguntas com respostas que podem ser verificadas de forma factual, funcionando como um rigoroso exame de conhecimentos. Os resultados revelaram uma taxa de sucesso a rondar os 90%, o que atesta que uma em cada dez respostas resulta numa alucinação da tecnologia.
O conceito de alucinação aplica-se quando o modelo apresenta uma afirmação completamente errada com um nível de segurança absoluto. Um dos exemplos detetados nos testes envolvia a questão sobre a possibilidade de usar gasolina para preparar uma receita de culinária. O assistente respondeu afirmativamente, falhando em reconhecer a óbvia toxicidade do líquido para o consumo humano.
A evolução do modelo e a resposta oficial
Esta não foi a primeira avaliação rigorosa realizada pela Oumi aos sistemas da empresa norte-americana. Em 2025, a versão 2.5 do modelo obteve uma taxa de sucesso de 85% nos mesmos testes. A transição para o Gemini 3 conseguiu elevar essa marca para os atuais 91%, sublinhando um avanço notório na capacidade de processamento e precisão.
Apesar desta melhoria técnica e de uma nota que seria considerada excelente num ambiente académico tradicional, a escala global de operações da gigante das pesquisas significa que a percentagem de falha continua a enganar um número massivo de pessoas a cada hora. Em reação às conclusões do relatório, Ned Adriance, porta-voz da entidade, refutou a validade do estudo, defendendo que a métrica do SimpleQA não é adequada para medir a eficácia e a utilidade desta categoria de resumos online.












Nenhum comentário
Seja o primeiro!