
A mais recente iteração do modelo de linguagem da xAI, o Grok 4, representa um avanço monumental face ao seu antecessor, colocando-se agora no pódio dos gigantes da inteligência artificial. Novos benchmarks independentes revelam que o modelo não só melhorou drasticamente, como já compete diretamente com as soluções mais avançadas do mercado, como o Gemini 2.5 Pro e o Claude.
O veredito dos benchmarks independentes
A plataforma aberta de avaliação de IA, LMArena.ai, que funciona com base em votações da comunidade, publicou recentemente os resultados para a versão API do Grok 4 (grok-4-0709). Com mais de quatro mil votos, o modelo alcançou a terceira posição no ranking geral da "Text Arena", uma das categorias de avaliação mais competitivas.

Os testes, que utilizam prompts do mundo real em diversas áreas, mostraram um desempenho de topo do Grok 4, que se classificou entre os três melhores em todas as categorias principais:
Um salto de gigante face à versão anterior
Para se ter uma ideia da evolução, o seu antecessor, o Grok 3, ocupava a oitava posição no mesmo ranking, o que demonstra um progresso notável por parte da xAI em otimizar as capacidades do seu modelo de linguagem.
Nem tudo é perfeito: as limitações do teste
É importante salientar que o modelo avaliado foi o Grok 4 e não a sua versão mais poderosa, o Grok 4 Heavy. Embora ambos sejam modelos focados no raciocínio, a versão Heavy é significativamente mais avançada, uma vez que utiliza múltiplos agentes para analisar e comparar resultados antes de apresentar uma resposta final.
Como o Grok 4 Heavy ainda não está disponível na plataforma de API para testes, é provável que os números apresentados pudessem ser ainda mais impressionantes com esta versão mais robusta do modelo.
O futuro da programação com IA: a próxima batalha
Apesar dos excelentes resultados, o Gemini 2.5 Pro e o Claude ainda são considerados os líderes no que toca à programação. No entanto, este cenário pode mudar já em agosto, com o lançamento do Grok 4 Code, uma versão do modelo especificamente otimizada para tarefas de código.
Adicionalmente, espera-se que a xAI lance também uma interface de linha de comandos (CLI), semelhante ao que já existe para o Gemini e o Claude, facilitando a integração do modelo em fluxos de trabalho de desenvolvimento.