1. TugaTech » Software » Noticias de Software
  Login     Registar    |                      
Siga-nos

Gemini 2.5 Computer Use

 

Já imaginou dar um descanso aos seus dedos e deixar que uma inteligência artificial trate das tarefas repetitivas no seu computador? A Google acaba de dar um passo gigante nessa direção ao disponibilizar uma versão de teste do Gemini 2.5 Computer Use, um novo modelo de Inteligência Artificial (IA) capaz de interagir com interfaces gráficas como se fosse um utilizador humano.

 

Chega de trabalho manual para copiar dados, preencher formulários ou organizar ficheiros. Esta nova tecnologia promete revolucionar a forma como interagimos com os nossos dispositivos, especialmente em navegadores de internet.

 

Como funciona esta magia digital?

 

O processo é surpreendentemente intuitivo e funciona num ciclo contínuo até a tarefa estar concluída. Primeiro, o utilizador faz um pedido. O modelo Gemini recebe esse pedido juntamente com uma captura de ecrã do ambiente de trabalho e um histórico de ações recentes.

 

De seguida, a IA analisa esta informação e decide qual a próxima ação a tomar, como clicar num botão, escrever texto num campo específico ou navegar para um novo endereço. Após executar a ação, o sistema tira uma nova captura de ecrã e envia-a de volta para o modelo, recomeçando o ciclo até que o objetivo final seja alcançado.

 

As ações suportadas são variadas e incluem clicar, escrever, navegar para URLs, fazer scroll, passar o cursor sobre elementos e até mesmo combinações de teclado ou arrastar e largar itens.

 

Do caos à ordem: exemplos práticos em ação

 

Para demonstrar o poder do Gemini 2.5 Computer Use, a Google partilhou dois exemplos práticos. No primeiro, a IA recebe a tarefa de extrair detalhes de animais de estimação de um site e adicioná-los como convidados num sistema de gestão de clientes (CRM), marcando de seguida uma consulta com um especialista.

 

 

Noutro cenário, a IA é encarregue de organizar um quadro virtual caótico, arrastando e largando notas adesivas digitais para as secções corretas, transformando a desordem em organização em poucos segundos.

 

 

E a concorrência? Google diz estar na frente

 

Construído sobre as capacidades de raciocínio e compreensão visual do Gemini 2.5 Pro, este novo modelo mostra um desempenho bastante promissor. A Google afirma que, em testes de controlo de interfaces web e móveis, o seu modelo demonstrou uma qualidade superior e a latência mais baixa em comparação com as ofertas da OpenAI e da Anthropic.

 

Embora esteja otimizado principalmente para navegadores de internet, a empresa refere que os testes em ambientes Android demonstram um "forte potencial para tarefas de controlo da interface móvel". No entanto, o controlo a nível do sistema operativo de um computador ainda não está otimizado.

 

Já disponível para programadores

 

A Google já utiliza internamente versões deste modelo para acelerar o desenvolvimento de software através de testes de interface automatizados. Agora, a tecnologia está a ser aberta a mais pessoas.

 

O Gemini 2.5 Computer Use já está disponível numa versão de teste pública através da API Gemini no Google AI Studio e no Vertex AI. Esta abertura destina-se a programadores que pretendam criar assistentes virtuais e ferramentas de automação de fluxos de trabalho, abrindo um novo leque de possibilidades para o futuro da produtividade digital.




Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech