Recentemente a Meta veio revelar os seus novos modelos LLM Llama 4, que chegaram com várias categorias de modelos, adaptados para diferentes usos. A empresa revelou o Scout, Maverick, e Behemot como os seus modelos base para a nova família, e com grandes avanços sobre a capacidade de processamento de dados.
No entanto, pouco depois dos modelos terem sido revelados, surgiram também rumores de que a Meta pode ter realizado alguma batota nos benchmarks associados com os testes do modelo. Os rumores apontavam que a empresa teria usado modelos especificamente treinados para obterem melhores resultados nos testes de benchmark, invés de usarem pontos gerais como nos restantes modelos e os que se encontravam disponíveis para o público.
A LMArena, uma das plataformas que realizou os testes ao modelo, indicou recentemente que a Meta terá mesmo enviado os seus modelos em violação das políticas de teste da entidade. Os modelos estavam adaptados para serem usados nos benchmarks, e obtendo resultados mais elevados do que os obtidos no final pelos utilizadores em geral.
A Meta justificou por ter enviado o modelo errado para o teste da plataforma, sendo que agora encontra-se finalmente disponível o teste para o modelo mais recente e sem batotas, com o Llama-4-Maverick-17B-128E-Instruct. Como era de esperar, o desempenho deste modelo ainda se encontra abaixo dos restantes existentes na plataforma, nomeadamente do Claude 3.5 Sonnet e Gemini-1.5-Pro-002.
Na lista de todos os modelos LLM testados pela LMArena, o novo modelo da Meta encontra-se apenas na 32 posição, o que será um valor bastante negativo face às alternativas existentes. Ainda assim, a Meta considera que o seu modelo fornece excelentes capacidades, e demonstra-se entusiasmadas em verificar o que os programadores poderão realizar com o mesmo.
Nenhum comentário
Seja o primeiro!