Meta nega rumores de adulteração de benchmarks com Llama 4

08/04/2025

Meta AI

Durante a semana passada, a Meta revelou os seus novos modelos Llama 4, que contam com diferentes categorias para usos específicos. Em causa encontram-se os modelos Llama 4 Scout, Llama 4 Maverick, e Llama 4 Behemoth, que integram as novas plataformas de IA da Meta para o modelo.

Cada modelo tem as suas características dedicadas, conforme os usos. O modelo Scout foca-se para uso com uma única placa gráfica H100 da Nvidia. Este oferece uma janela de contexto para 10 milhões de tokens. O Maverick é maior do que o Scout, e pretende atingir a mesma capacidade de processamento que o GPT-4o e DeepSeek-V3.

O modelo mais largo dos três é o Behemoth, que usa mais de 288 mil milhões de parâmetros diferentes, e que a Meta afirma ultrapassar as capacidades do GPT-4.5 e Claude Sonnet 3.7 em testes de benchmark STEM.

No entanto, depois dos novos modelos LLM da Meta terem sido revelados, surgiram também rumores que a empresa teria usado modelos de treino dedicados nos mesmos para obter os melhores resultados possíveis em testes de benchmark.

As acusações partiram de algumas fontes na China, que indicavam que a Meta teria dedicado uma equipa completa para treinar os novos modelos, de forma a que tenham vantagens sobre testes específicos de benchmark, apesar de as capacidades no mundo real serem mais reduzidas.

Ou seja, os novos modelos estariam preparados para obterem pontuações mais elevadas em testes que seriam realizados de forma dedicada nos mesmos, e que não se traduziam nas capacidades do mundo real.

Estes rumores começaram também a ser partilhados em outras redes sociais, como a X e o Reddit, incluindo alguns testes que pareciam sustentar essa ideia. A propagação destas informações levou a Meta a deixar um comunicado, tendo indicado que os rumores são totalmente infundados e irrealistas.

Estes rumores ganharam alguma força depois de ter sido verificado que os modelos usados para benchmark na plataforma LMArena não eram as mesmas versões que foram disponibilizadas publicamente. A Meta justifica essa ideia tendo em conta que a versão usada na plataforma ainda se tratava de uma versão experimental, e que normalmente demora alguns dias para que as mesmas sejam atualizada em todas as plataformas de testes.

Nenhum comentário

Seja o primeiro!