
A empresa chinesa DeepSeek acaba de revelar uma nova abordagem técnica que promete agitar o mundo da tecnologia. Batizado de Manifold-Constrained Hyper-Connections (mHC), este novo método tem como objetivo permitir o treino de grandes modelos de linguagem de forma mais eficiente e, crucialmente, a custos mais baixos, segundo avança o South China Morning Post.
Evolução sobre ombros de gigantes
Esta inovação não surge do nada, mas sim como uma evolução das chamadas "Hyper-Connections", uma tecnologia originalmente desenvolvida pela ByteDance em 2024. Por sua vez, essa tecnologia tem as suas raízes na arquitetura clássica ResNet, criada pela Microsoft Research Asia.
A DeepSeek afirma que o mHC oferece um treino mais estável e escalável sem aumentar os custos computacionais. O segredo reside em otimizações específicas realizadas ao nível da infraestrutura, permitindo que os modelos aprendam de forma mais eficaz sem exigir um aumento proporcional de recursos de hardware.
Resultados práticos e o futuro pós-R1
A tecnologia não é apenas teórica. Os investigadores da empresa já testaram o mHC em modelos com até 27 mil milhões de parâmetros, reportando resultados positivos. Estes testes sugerem que a China continua a dar passos largos na otimização de recursos para a Inteligência Artificial.
De acordo com especialistas citados pelo jornal, este novo método poderá ser um "aperitivo" para o próximo grande lançamento da DeepSeek. Recorde-se que a empresa lançou o seu modelo de alto perfil, o R1, por ocasião do Ano Novo Chinês em 2025, e a comunidade aguarda agora o próximo passo evolutivo da marca.










Nenhum comentário
Seja o primeiro!