1. TugaTech » Internet e Redes » Noticias da Internet e Mercados
  Login     Registar    |                      
Siga-nos

DeepSeek logo da aplicação de IA

O laboratório chinês de inteligência artificial DeepSeek poderá estar a captar as atenções esta semana com o seu modelo de raciocínio R1 atualizado, mas uma versão mais pequena e "destilada" está também a dar que falar. Denominada DeepSeek-R1-0528-Qwen3-8B, esta nova variante compacta afirma superar modelos de tamanho comparável em importantes testes de desempenho.

A DeepSeek volta à carga com uma nova "pequena notável"

Construído sobre a base do modelo Qwen3-8B, lançado pela Alibaba em maio, o novo DeepSeek-R1-0528-Qwen3-8B parece não se intimidar com a concorrência de peso. Este modelo mais pequeno é fruto de um processo de "destilação" do seu irmão maior, o R1, focando-se na eficiência sem perder de vista a capacidade de raciocínio.

Desempenho que desafia os gigantes da indústria

Nos resultados divulgados pela DeepSeek, o DeepSeek-R1-0528-Qwen3-8B demonstrou ser superior ao Gemini 2.5 Flash da Google no AIME 2025, uma coletânea de questões matemáticas desafiantes. Além disso, este modelo compacto quase iguala o desempenho do recém-lançado Phi 4 reasoning plus da Microsoft noutro teste de aptidões matemáticas, o HMMT.

Estes resultados são particularmente interessantes, considerando que os chamados modelos destilados, como este da DeepSeek, são geralmente menos capazes que as suas versões originais de maior dimensão.

O segredo? Um modelo "destilado" e eficiente

A grande vantagem dos modelos destilados reside na sua eficiência computacional. São substancialmente menos exigentes em termos de hardware para operar. Segundo a plataforma de cloud NodeShift, o modelo base Qwen3-8B já requer uma placa gráfica (GPU) com 40GB a 80GB de memória RAM (como uma Nvidia H100). Em contraste, o modelo R1 completo da DeepSeek necessita de cerca de uma dúzia de GPUs com 80GB cada. Esta diferença torna a versão compacta significativamente mais acessível.

Para treinar o DeepSeek-R1-0528-Qwen3-8B, a DeepSeek utilizou texto gerado pelo modelo R1 atualizado, aplicando-o para afinar e otimizar o Qwen3-8B.

Para que serve e como aceder a esta nova IA?

Numa página dedicada ao modelo na plataforma de desenvolvimento de IA Hugging Face, a DeepSeek descreve o DeepSeek-R1-0528-Qwen3-8B como sendo destinado "tanto à investigação académica sobre modelos de raciocínio como ao desenvolvimento industrial focado em modelos de pequena escala".

Uma excelente notícia para programadores e empresas é que o DeepSeek-R1-0528-Qwen3-8B está disponível sob uma licença MIT permissiva. Isto significa que pode ser utilizado comercialmente sem quaisquer restrições. Diversas plataformas, incluindo o LM Studio, já disponibilizam o modelo através de uma API, facilitando a sua integração em diferentes aplicações e projetos.

Foto do Autor

Aficionado por tecnologia desde o tempo dos sistemas a preto e branco

Ver perfil do usuário Enviar uma mensagem privada Enviar um email Facebook do autor Twitter do autor Skype do autor

conectado
Encontrou algum erro neste artigo?



Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech