1. TugaTech » Internet e Redes » Noticias da Internet e Mercados » Grok 4 surpreende em benchmarks e já rivaliza com Gemini e Claude
  Login     Registar    |                      
Siga-nos

Você não está conectado. Conecte-se ou registre-se

  

Opções



Mensagens anteriores

Grok 4 surpreende em benchmarks e já rivaliza com Gemini e Claude em Qua 16 Jul 2025 - 13:36

DJPRMF

logo do grok

A mais recente iteração do modelo de linguagem da xAI, o Grok 4, representa um avanço monumental face ao seu antecessor, colocando-se agora no pódio dos gigantes da inteligência artificial. Novos benchmarks independentes revelam que o modelo não só melhorou drasticamente, como já compete diretamente com as soluções mais avançadas do mercado, como o Gemini 2.5 Pro e o Claude.

O veredito dos benchmarks independentes

A plataforma aberta de avaliação de IA, LMArena.ai, que funciona com base em votações da comunidade, publicou recentemente os resultados para a versão API do Grok 4 (grok-4-0709). Com mais de quatro mil votos, o modelo alcançou a terceira posição no ranking geral da "Text Arena", uma das categorias de avaliação mais competitivas.

detalhes sobre os testes realizados aos modelos de IA

Os testes, que utilizam prompts do mundo real em diversas áreas, mostraram um desempenho de topo do Grok 4, que se classificou entre os três melhores em todas as categorias principais:

  • Matemática: #1

  • Programação: #2

  • Escrita Criativa: #2

  • Seguimento de Instruções: #2

  • Prompts Difíceis: #3

Um salto de gigante face à versão anterior

Para se ter uma ideia da evolução, o seu antecessor, o Grok 3, ocupava a oitava posição no mesmo ranking, o que demonstra um progresso notável por parte da xAI em otimizar as capacidades do seu modelo de linguagem.

Nem tudo é perfeito: as limitações do teste

É importante salientar que o modelo avaliado foi o Grok 4 e não a sua versão mais poderosa, o Grok 4 Heavy. Embora ambos sejam modelos focados no raciocínio, a versão Heavy é significativamente mais avançada, uma vez que utiliza múltiplos agentes para analisar e comparar resultados antes de apresentar uma resposta final.

Como o Grok 4 Heavy ainda não está disponível na plataforma de API para testes, é provável que os números apresentados pudessem ser ainda mais impressionantes com esta versão mais robusta do modelo.

O futuro da programação com IA: a próxima batalha

Apesar dos excelentes resultados, o Gemini 2.5 Pro e o Claude ainda são considerados os líderes no que toca à programação. No entanto, este cenário pode mudar já em agosto, com o lançamento do Grok 4 Code, uma versão do modelo especificamente otimizada para tarefas de código.

Adicionalmente, espera-se que a xAI lance também uma interface de linha de comandos (CLI), semelhante ao que já existe para o Gemini e o Claude, facilitando a integração do modelo em fluxos de trabalho de desenvolvimento.



  As mensagens apresentadas em cima não são actualizadas automaticamente pelo que se uma nova mensagem for colocada enquanto se encontra nesta página, não irá aparecer na lista em cima.


Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech