1. TugaTech » Internet e Redes » Noticias da Internet e Mercados » Google desenvolve método híbrido para acelerar os chatbots de IA
  Login     Registar    |                      
Siga-nos

Você não está conectado. Conecte-se ou registre-se

  

Opções



Mensagens anteriores

Google desenvolve método híbrido para acelerar os chatbots de IA em Sex 12 Set 2025 - 16:53

DJPRMF

Inteligência Artificial

 

Desde que ferramentas como o ChatGPT surgiram em 2022, os modelos de linguagem de grande escala (LLMs) tornaram-se omnipresentes. São utilizados para tudo, desde a programação à pesquisa de informação. No entanto, quem os usa com frequência já notou que, por vezes, a resposta demora a chegar. Este processo de geração de uma resposta, conhecido como inferência, é lento e exige um elevado poder computacional, o que o torna caro. Com a crescente adesão a estas tecnologias, encontrar uma forma de as tornar mais rápidas e acessíveis, sem perder qualidade, é um desafio fundamental.

 

As soluções atuais e os seus limites

 

Atualmente, existem duas abordagens principais para tentar acelerar o funcionamento dos LLMs: o método de cascata e a descodificação especulativa. No método de cascata, um modelo de IA mais pequeno e rápido tenta responder primeiro à questão. Se não conseguir, a tarefa passa para um modelo maior e mais potente, mas também mais caro e lento. Esta abordagem reduz o custo computacional, mas pode criar um "engarrafamento", pois é preciso esperar pela decisão do primeiro modelo antes de avançar.

 

Por outro lado, a descodificação especulativa utiliza um modelo mais pequeno para criar um "rascunho" da resposta, que é depois verificado rapidamente pelo modelo maior. O objetivo é a velocidade, mas o sistema é demasiado rígido: se uma única parte do rascunho for rejeitada, toda a proposta é descartada, mesmo que a resposta fosse boa. Este processo anula a vantagem inicial de velocidade e não resulta em qualquer poupança de recursos.

 

A solução híbrida da Google: o melhor de dois mundos

 

Perante as limitações dos métodos existentes, a equipa da Google Research desenvolveu uma nova abordagem que combina o melhor das duas técnicas, denominada "cascatas especulativas". A grande inovação é uma regra de adiamento flexível que decide dinamicamente se aceita os "rascunhos" do modelo mais pequeno ou se passa a tarefa para o modelo maior.

 

Esta flexibilidade permite contornar o "engarrafamento" do método de cascata e a rigidez da descodificação especulativa. Na prática, o sistema consegue aceitar uma boa resposta do modelo mais pequeno, mesmo que não corresponda exatamente à que o modelo maior produziria, algo que não era possível anteriormente.

 

Resultados promissores, mas ainda em fase de investigação

 

A equipa da Google realizou experiências com modelos como o Gemma e o T5 em várias tarefas de linguagem, como resumos, raciocínio e programação. Os resultados demonstraram que as cascatas especulativas alcançam melhores compromissos entre custo e qualidade, além de maiores ganhos de velocidade em comparação com os métodos tradicionais.

 

Para já, esta tecnologia ainda se encontra em fase de investigação. No entanto, se a sua eficácia se confirmar, poderá ser implementada no futuro para proporcionar uma experiência de utilização de chatbots como o ChatGPT mais rápida, eficiente e económica para todos.



  As mensagens apresentadas em cima não são actualizadas automaticamente pelo que se uma nova mensagem for colocada enquanto se encontra nesta página, não irá aparecer na lista em cima.


Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech