Xiaomi Robotics-0: A revolução open-source que traz inteligência humana aos robôs

Escrito por **Pedro Fernandes (DJPRMF)** · 12/02/2026

Xiaomi Robotics 0

A Xiaomi não para de surpreender e, desta vez, o foco não são os smartphones ou os carros elétricos, mas sim o futuro da automação. A gigante tecnológica lançou oficialmente hoje, 12 de fevereiro de 2026, o seu primeiro modelo robótico VLA (Visão-Linguagem-Ação) de código aberto, batizado de Xiaomi-Robotics-0.

Com uns impressionantes 4,7 mil milhões de parâmetros, este novo modelo promete redefinir o que os robôs conseguem fazer, combinando a compreensão visual e linguística com uma execução de movimentos de alta precisão em tempo real. E o melhor de tudo? Foi concebido para correr em hardware que provavelmente já tens em casa.

Um sistema nervoso artificial completo

O grande segredo do Xiaomi-Robotics-0 reside na sua arquitetura inovadora, que a marca descreve como uma colaboração entre um "cérebro" e um "cerebelo". Para equilibrar a compreensão geral do mundo com o controlo preciso necessário para tarefas físicas, o modelo utiliza uma estrutura de "Mixture-of-Transformers" (MoT).

O "Cérebro Visual-Linguístico" (VLM) é responsável por interpretar comandos humanos que podem ser vagos, como "por favor, dobra a toalha", e captar as relações espaciais a partir de imagens de alta definição. Já o "Cerebelo de Execução de Ação", impulsionado por um Transformador de Difusão (DiT), garante que os movimentos do robô sejam suaves e precisos, gerando blocos de ação contínuos em vez de movimentos isolados e robóticos.

Esta abordagem híbrida resolve um problema comum na IA moderna: muitos modelos tornam-se "menos inteligentes" na compreensão geral à medida que aprendem tarefas motoras específicas. A Xiaomi contornou isto com um treino sinérgico que obriga o sistema a prever ações enquanto compreende o que vê.

Desempenho de topo no teu computador

Um dos maiores obstáculos na robótica atual é a latência, que muitas vezes faz com que os robôs "gaguejem" ou parem para pensar antes de se mexerem. A equipa da Xiaomi introduziu técnicas de inferência assíncrona e uma máscara de atenção em forma de Λ, que força o modelo a focar-se no feedback visual atual, tornando o robô altamente reativo a mudanças repentinas no ambiente.

Nos testes práticos, o modelo superou 30 concorrentes em benchmarks de simulação e demonstrou uma coordenação olho-mão superior em tarefas do mundo real, como desmontar blocos ou dobrar toalhas macias. Surpreendentemente, todo este poder não exige um supercomputador; o Xiaomi-Robotics-0 suporta inferência em tempo real em placas gráficas de consumo.

A empresa disponibilizou o código, os pesos do modelo e toda a documentação para a comunidade, conforme detalhado na página do projeto e no repositório oficial no GitHub.

Nenhum comentário

Seja o primeiro!