Com cada vez mais modelos LLM de IA a surgirem no mercado, torna-se complicado criar um teste que avalie as capacidades de cada modelo de igual forma. Portanto, a OpenAI pretende agora mudar isso, com o Pioneers.
O programa Pioneers da OpenAI pretende criar um benchmark genérico para as plataformas de IA, que possa avaliar as capacidades reais dos modelos LLM com usos práticos do dia a dia. A ideia será criar uma nova forma das entidades avaliarem os seus modelos de IA, com uma base de referências genérica e compatível entre todas.
Esta ideia da OpenAI surge depois da Meta ter sido acusada de treinar os seus recentes modelos Llama para obterem bons resultados em testes específicos de benchmark da LMArena. Os modelos da empresa teriam sido treinados com testes dedicados para o benchmark, de forma a obter um desempenho superior nestes, enquanto que as suas capacidades seriam diferentes no uso do dia a dia.
Embora o projeto seja liderado pela OpenAI, as restantes entidades criadoras de modelos LLM poderiam juntar-se no mesmo, e ajudar a desenvolver um teste geral que seja a referência para todos.
Existem também benefícios para as empresas que participem neste programa, já que teriam acesso à base de dados para ajustes diretos, que podem ser usados para ajustar os seus modelos dedicados de IA para tarefas específicas. Atualmente a OpenAI integra estes modelos dedicados para treino com o GPT, e ajuda a treinar os modelos para ambientes e tarefas bastante específicas.
Nenhum comentário
Seja o primeiro!