
A DeepSeek, uma das mais promissoras empresas de inteligência artificial da China, viu-se forçada a regressar ao hardware da Nvidia para treinar o seu novo modelo de linguagem, após falhas persistentes e problemas de desempenho com os chips da Huawei. A situação, revelada pelo Financial Times, expõe as dificuldades que a China enfrenta para atingir a autossuficiência tecnológica no setor crítico dos semicondutores de alto desempenho.
O sucesso com a Nvidia e a pressão de Pequim
Após o sucesso do seu primeiro modelo, o R1, treinado num robusto cluster de 50.000 GPUs da Nvidia, a DeepSeek foi incentivada pelas autoridades chinesas a adotar uma solução doméstica para o desenvolvimento do seu sucessor, o R2. A escolha recaiu sobre o hardware Ascend da Huawei, numa clara tentativa de alinhar-se com as ambições de Pequim de reduzir a dependência de tecnologia ocidental.
O modelo R1 foi treinado numa impressionante infraestrutura que incluía dezenas de milhares de unidades HGX H20, H800 e H100 da Nvidia, fornecidas através do seu investidor, a High-Flyer Capital Management. O objetivo era replicar e superar este sucesso usando apenas tecnologia chinesa.
Hardware da Huawei falha nos testes e atrasa novo modelo
No entanto, a transição para a plataforma Ascend revelou-se um desastre. Segundo fontes próximas do projeto, o hardware da Huawei sofreu de instabilidade constante, conectividade lenta entre os chips e limitações significativas no seu kit de software CANN. Os problemas foram tão graves que atrasaram o lançamento do modelo R2, originalmente previsto para maio.
A Huawei terá enviado uma equipa de engenheiros aos centros de dados da DeepSeek para tentar resolver os problemas, mas, apesar dos esforços, nunca foi possível concluir uma sessão de treino completa com sucesso na plataforma Ascend.
O regresso à Nvidia e o dilema da inferência
Confrontada com os sucessivos falhanços, a DeepSeek tomou a decisão pragmática de reverter para os aceleradores de IA da Nvidia para a fase de treino do R2, que exige um enorme poder computacional. No entanto, a empresa continua a trabalhar para garantir que o novo modelo seja compatível com o hardware da Huawei para a fase de inferência – a utilização prática do modelo de IA no dia a dia.
Esta abordagem mista é uma solução de compromisso. Por um lado, nasce da necessidade, mas, por outro, reflete uma realidade do mercado chinês: muitos dos clientes da DeepSeek irão utilizar o modelo R2 em plataformas Ascend. A escassez de processadores Nvidia de topo na China, devido às sanções dos EUA, torna crucial que os novos modelos de IA funcionem em hardware doméstico, expondo um dilema para as empresas de tecnologia do país.