
Os robôs industriais recebem agora um reforço crucial na sua capacidade de interpretar o mundo real. O modelo Gemini Robotics-ER 1.6, anunciado a 14 de abril, atua como um sistema de raciocínio de alto nível capaz de planear e executar tarefas, e o conhecido cão robô Spot já está a colocar estas melhorias à prova no terreno. Esta evolução surge do trabalho da Google DeepMind e, de acordo com o vídeo de demonstração partilhado pela Boston Dynamics, a tecnologia transforma por completo a forma como as máquinas interagem com os ambientes físicos.
A fabricante tem testado trabalhadores robóticos, tanto quadrúpedes como humanoides, em diversas instalações industriais, incluindo as fábricas de automóveis da sua empresa mãe, a Hyundai Motor Group. O Spot assume o papel de inspetor e navega pelas instalações para verificar termómetros analógicos e níveis de líquidos através de visores transparentes em canos e tanques. Esta missão exige um raciocínio visual complexo para interpretar agulhas, marcações e texto em vários instrumentos.
Visão que compreende o ambiente
Para dominar estas tarefas, o sistema fornece aos robôs uma visão de agente. Esta funcionalidade cruza a interpretação visual com a execução de código para criar uma espécie de bloco de notas digital, o qual permite analisar e manipular as imagens. Embora esta base de IA tenha sido introduzida na versão 3.0 Flash em janeiro de 2026, a nova integração atinge resultados esmagadores.
O salto no desempenho é evidente: a precisão na leitura de instrumentos disparou para os 98% no Gemini Robotics-ER 1.6, deixando para trás os meros 23% da versão anterior 1.5 e os 67% alcançados pelo 3.0 Flash. Mesmo que se desative a visão de agente, o modelo base garante uma precisão de 86%. Este valor é atingido porque o software aponta para diferentes elementos da imagem para resolver tarefas complexas e utiliza um raciocínio de múltiplas vistas para processar os fluxos de vídeo de várias câmaras em simultâneo.
A precisão que elimina as alucinações
Uma das grandes vitórias desta atualização é a redução drástica das falsas perceções. Num dos testes realizados, o novo modelo conseguiu identificar e contar corretamente martelos, tesouras, pincéis, alicates e ferramentas de jardinagem numa imagem desarrumada. No mesmo cenário, a versão 1.5 ignorou as tesouras, errou as contagens e chegou a identificar um carrinho de mão inexistente apenas porque este constava na lista de objetos a procurar. Embora o sistema ainda não tenha a compreensão total de um ser humano, o problema das alucinações sofreu um corte substancial.
Segurança reforçada para o dia a dia
Para além da eficácia, o modelo destaca-se pela sua capacidade de seguir restrições de segurança física. A máquina consegue agora tomar decisões ponderadas ao lidar com materiais ou líquidos perigosos e perceciona com maior exatidão o risco de ferimentos para os humanos. Um dos exemplos apontados é a capacidade de identificar o perigo caso uma criança tente inserir um objeto numa tomada elétrica.
A verdadeira validação do sistema vai acontecer à medida que os investigadores e as empresas tiverem mais tempo prático com a tecnologia. Historicamente, os robôs brilham em trabalhos altamente especializados e coreografados, como linhas de montagem ou corredores de armazéns. Contudo, a aposta atual recai sobre trabalhadores independentes capazes de operar em cenários reais e pouco controlados, dando um passo em direção a um futuro onde um robô como o Mark 4 da General Atomics International poderá analisar uma sala e descrever perfeitamente tudo o que lá está.












Nenhum comentário
Seja o primeiro!