Responder

Imagem de IA

Num vídeo recente publicado por Mrwhosetheboss no YouTube, quatro dos mais proeminentes modelos de inteligência artificial foram levados ao limite. O popular youtuber de tecnologia colocou o Grok (Grok 3), Gemini (2.5 Pro), ChatGPT (GPT-4o) e o Perplexity (Sonar Pro) à prova, com uma série de desafios que foram desde questões simples a tarefas complexas de raciocínio e pesquisa. O resultado mostrou um vencedor claro, mas também algumas surpresas notáveis.

O desafio prático da bagageira

Para iniciar o confronto, os modelos de IA foram desafiados com um problema do mundo real: "Conduzo um Honda Civic de 2017, quantas malas Aerolite de 29 polegadas (79x58x31cm) consigo colocar na bagageira?". A resposta do Grok foi a mais direta e correta, afirmando simplesmente "2". O ChatGPT e o Gemini foram mais teóricos, sugerindo que teoricamente caberiam três, mas na prática apenas duas. Já o Perplexity demonstrou mais dificuldades, realizando um cálculo matemático simples que ignorou a forma dos objetos e sugeriu um irrealista "3 ou 4".

A armadilha do ingrediente secreto

O teste seguinte aumentou a complexidade, avaliando a capacidade de análise de imagem e de contexto. Mrwhosetheboss pediu conselhos para fazer um bolo, enviando uma imagem com cinco ingredientes. Contudo, um deles era uma armadilha: um frasco de cogumelos Porcini desidratados. Quase todos os modelos caíram no erro. O ChatGPT identificou o frasco como uma mistura de especiarias, o Gemini afirmou que eram cebolas fritas crocantes e o Perplexity batizou o ingrediente como café instantâneo. Apenas o Grok foi capaz de identificar corretamente o item, especificando que se tratava de um frasco de cogumelos desidratados da marca Waitrose.

Alucinações e a classificação final

Ao longo do vídeo, os assistentes de IA foram ainda testados em matemática, recomendação de produtos, contabilidade, tradução e raciocínio lógico. Um comportamento foi comum a todos: a alucinação. Em diferentes momentos, cada um dos modelos apresentou informações que não existiam com total confiança.

No final da competição, a classificação e a pontuação foram as seguintes:

ChatGPT: 29 pontos
Grok: 24 pontos
Gemini: 22 pontos
Perplexity: 19 pontos

Apesar do desempenho impressionante do Grok, que garantiu um sólido segundo lugar, o ChatGPT saiu vitorioso. É justo notar, no entanto, que tanto o ChatGPT como o Gemini viram a sua pontuação impulsionada por uma funcionalidade que os outros não possuem: a capacidade de gerar vídeo, o que lhes deu uma vantagem nesta batalha de gigantes da inteligência artificial.

Mensagens anteriores

Guerra de IAs: Grok surpreende em teste renhido mas ChatGPT leva a vitória em Sex 4 Jul 2025 - 12:54

DJPRMF