Google DeepMind funde inteligência artificial com o cursor do rato para prever ações

Escrito por **Pedro Fernandes (DJPRMF)** · 13/05/2026

Google Deepmind

O clássico ponteiro do rato, que permaneceu inalterado durante décadas com funções limitadas a apontar e clicar, está prestes a dar o seu maior salto tecnológico. Segundo revelou a Google DeepMind, o objetivo passa por fundir o cursor com inteligência artificial contextual, permitindo que o sistema compreenda exatamente o que está a ser assinalado no ecrã, a sua relevância e a ação pretendida pelo utilizador.

O fim dos comandos longos e a transição para a proatividade

A visão da divisão de investigação da Google assenta na inversão da tradicional rotina de uso. Em vez de obrigar o utilizador a abrir a janela de um modelo de linguagem, copiar conteúdos e redigir instruções complexas para dar contexto, a ideia é fundir a assistência diretamente nos fluxos de trabalho, páginas web ou documentos. Basta apontar para um elemento e transmitir uma ordem natural através da voz.

Para sustentar esta mecânica, foram delineados quatro princípios fundamentais: preservar o fluxo de trabalho sem alternar constantemente entre janelas; aplicar o conceito de "mostrar e dizer" conjugando o ponteiro com ordens breves; tirar partido de expressões humanas naturais como "isto" ou "aquilo"; e transformar simples píxeis em entidades acionáveis, descodificando datas, tabelas ou código.

Na prática, o sistema consegue interpretar o apontar para um ficheiro PDF e extrair um resumo em tópicos diretamente para um email, converter uma tabela num gráfico visual, ou transformar notas manuscritas numa lista de tarefas. A gigante tecnológica começou já a integrar inteligência artificial no Chrome, permitindo ao Gemini interagir com áreas específicas das páginas web assinaladas pelo cursor.

Exclusividade no ecossistema da marca e os desafios de autonomia

Esta rotina proativa está centralizada nos futuros computadores portáteis Googlebook e desenhada para impulsionar o novo sistema Aluminium OS. Em resultado desta estratégia, as funcionalidades multimodais marcam a sua estreia exclusiva nestes equipamentos, ficando de fora de plataformas distintas como o Windows 11, macOS ou Linux.

O movimento insere-se na implementação da Gemini Intelligence, concebida para atuar de forma proativa em todo o ecossistema da marca. O plano engloba a automação de tarefas entre diferentes aplicações, o preenchimento de formulários complexos e a conversão de áudio em texto limpo através da ferramenta Rambler. A expansão arranca no verão nos telemóveis mais recentes da linha Samsung Galaxy e Google Pixel, estendendo-se gradualmente a relógios, automóveis e óculos inteligentes.

Apesar de rivais como a Microsoft explorarem soluções visuais com o Click to Do nos PCs Copilot+ e a Apple integrar a Visual Intelligence no iPhone, a Google aposta no cursor como uma interface multimodal contínua. Contudo, a necessidade de processamento local ou ligação permanente à nuvem levanta questões incontornáveis sobre o impacto na autonomia da bateria. Para mitigar receios de intrusão, a empresa assegura que o controlo permanecerá do lado humano, exigindo confirmações explícitas para a execução de tarefas sensíveis.

Nenhum comentário

Seja o primeiro!

Siga-nos

Google DeepMind funde inteligência artificial com o cursor do rato para prever ações

O fim dos comandos longos e a transição para a proatividade

Exclusividade no ecossistema da marca e os desafios de autonomia

Não perca nenhuma novidade!