O laboratório chinês de inteligência artificial DeepSeek poderá estar a captar as atenções esta semana com o seu modelo de raciocínio R1 atualizado, mas uma versão mais pequena e "destilada" está também a dar que falar. Denominada DeepSeek-R1-0528-Qwen3-8B, esta nova variante compacta afirma superar modelos de tamanho comparável em importantes testes de desempenho.
A DeepSeek volta à carga com uma nova "pequena notável"
Construído sobre a base do modelo Qwen3-8B, lançado pela Alibaba em maio, o novo DeepSeek-R1-0528-Qwen3-8B parece não se intimidar com a concorrência de peso. Este modelo mais pequeno é fruto de um processo de "destilação" do seu irmão maior, o R1, focando-se na eficiência sem perder de vista a capacidade de raciocínio.
Desempenho que desafia os gigantes da indústria
Nos resultados divulgados pela DeepSeek, o DeepSeek-R1-0528-Qwen3-8B demonstrou ser superior ao Gemini 2.5 Flash da Google no AIME 2025, uma coletânea de questões matemáticas desafiantes. Além disso, este modelo compacto quase iguala o desempenho do recém-lançado Phi 4 reasoning plus da Microsoft noutro teste de aptidões matemáticas, o HMMT.
Estes resultados são particularmente interessantes, considerando que os chamados modelos destilados, como este da DeepSeek, são geralmente menos capazes que as suas versões originais de maior dimensão.
O segredo? Um modelo "destilado" e eficiente
A grande vantagem dos modelos destilados reside na sua eficiência computacional. São substancialmente menos exigentes em termos de hardware para operar. Segundo a plataforma de cloud NodeShift, o modelo base Qwen3-8B já requer uma placa gráfica (GPU) com 40GB a 80GB de memória RAM (como uma Nvidia H100). Em contraste, o modelo R1 completo da DeepSeek necessita de cerca de uma dúzia de GPUs com 80GB cada. Esta diferença torna a versão compacta significativamente mais acessível.
Para treinar o DeepSeek-R1-0528-Qwen3-8B, a DeepSeek utilizou texto gerado pelo modelo R1 atualizado, aplicando-o para afinar e otimizar o Qwen3-8B.
Para que serve e como aceder a esta nova IA?
Numa página dedicada ao modelo na plataforma de desenvolvimento de IA Hugging Face, a DeepSeek descreve o DeepSeek-R1-0528-Qwen3-8B como sendo destinado "tanto à investigação académica sobre modelos de raciocínio como ao desenvolvimento industrial focado em modelos de pequena escala".
Uma excelente notícia para programadores e empresas é que o DeepSeek-R1-0528-Qwen3-8B está disponível sob uma licença MIT permissiva. Isto significa que pode ser utilizado comercialmente sem quaisquer restrições. Diversas plataformas, incluindo o LM Studio, já disponibilizam o modelo através de uma API, facilitando a sua integração em diferentes aplicações e projetos.
Nenhum comentário
Seja o primeiro!