1. TugaTech » Software » Noticias de Software
  Login     Registar    |                      
Siga-nos

DeepSeek em smartphone

A corrida desenfreada pelo desenvolvimento de modelos de IA cada vez maiores tem um custo, e não é apenas computacional. O preço da memória DRAM disparou cerca de cinco vezes em apenas dez semanas, impulsionado pela necessidade de hardware capaz de suportar estes sistemas complexos. No entanto, uma nova abordagem da DeepSeek promete aliviar este estrangulamento e reduzir a dependência das dispendiosas memórias HBM (High-Bandwidth Memory).

Em colaboração com a Universidade de Pequim, a empresa apresentou o Engram, um novo método de treino desenhado para separar o armazenamento de memória dos processos computacionais, atacando diretamente a raiz do problema que tem inflacionado os custos da infraestrutura tecnológica.

Separar a memória do processamento

Os Grandes Modelos de Linguagem (LLMs) tradicionais exigem memória de alta largura de banda tanto para a recuperação de conhecimento como para os cálculos básicos. Esta arquitetura cria um funil que limita o desempenho e aumenta drasticamente os custos operacionais. O Engram propõe uma solução engenhosa: permitir que os modelos "consultem" a informação essencial sem sobrecarregar a memória da GPU, libertando assim capacidade para tarefas de raciocínio mais complexas.

Segundo os investigadores, os modelos atuais desperdiçam capacidade sequencial em operações triviais que poderiam ser geridas de forma mais eficiente. O sistema foi testado num modelo de 27 mil milhões de parâmetros e demonstrou melhorias mensuráveis nos benchmarks padrão da indústria. Ao realizar a recuperação de conhecimento através de N-grams em hash, o Engram oferece acesso à memória estática de forma independente do contexto atual, ajustando depois a informação recuperada através de um mecanismo de "gating" sensível ao contexto.

Eficiência e independência de hardware

Esta arquitetura não só permite lidar com contextos de entrada longos de forma mais eficiente, como também suporta o pré-carregamento ao nível do sistema com um impacto mínimo no desempenho. Testes realizados pela equipa indicam que a realocação de cerca de 20 a 25% do orçamento de parâmetros esparsos para o módulo de memória Engram resulta num desempenho superior ao dos modelos puramente MoE (Mixture-of-Experts).

A tecnologia surge num momento crucial, especialmente para regiões como a China, onde o acesso a hardware de ponta de fabricantes como a Samsung, SK Hynix e Micron pode ser limitado. O método funciona em conjunto com outras soluções de eficiência de hardware, como os aceleradores de inferência da Phison e as normas CXL (Compute Express Link), permitindo expandir a capacidade total de memória utilizando SSDs de forma económica.

Ao reduzir a necessidade de memória de alta velocidade para informações estáticas, o Engram pode ajudar a estabilizar o mercado, diminuindo a pressão sobre a infraestrutura de RAM e evitando as oscilações de preço drásticas que se têm verificado no mercado de DDR5, conforme detalhado pelo SCMP.




Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech