
Desde que ferramentas como o ChatGPT surgiram em 2022, os modelos de linguagem de grande escala (LLMs) tornaram-se omnipresentes. São utilizados para tudo, desde a programação à pesquisa de informação. No entanto, quem os usa com frequência já notou que, por vezes, a resposta demora a chegar. Este processo de geração de uma resposta, conhecido como inferência, é lento e exige um elevado poder computacional, o que o torna caro. Com a crescente adesão a estas tecnologias, encontrar uma forma de as tornar mais rápidas e acessíveis, sem perder qualidade, é um desafio fundamental.
As soluções atuais e os seus limites
Atualmente, existem duas abordagens principais para tentar acelerar o funcionamento dos LLMs: o método de cascata e a descodificação especulativa. No método de cascata, um modelo de IA mais pequeno e rápido tenta responder primeiro à questão. Se não conseguir, a tarefa passa para um modelo maior e mais potente, mas também mais caro e lento. Esta abordagem reduz o custo computacional, mas pode criar um "engarrafamento", pois é preciso esperar pela decisão do primeiro modelo antes de avançar.
Por outro lado, a descodificação especulativa utiliza um modelo mais pequeno para criar um "rascunho" da resposta, que é depois verificado rapidamente pelo modelo maior. O objetivo é a velocidade, mas o sistema é demasiado rígido: se uma única parte do rascunho for rejeitada, toda a proposta é descartada, mesmo que a resposta fosse boa. Este processo anula a vantagem inicial de velocidade e não resulta em qualquer poupança de recursos.
A solução híbrida da Google: o melhor de dois mundos
Perante as limitações dos métodos existentes, a equipa da Google Research desenvolveu uma nova abordagem que combina o melhor das duas técnicas, denominada "cascatas especulativas". A grande inovação é uma regra de adiamento flexível que decide dinamicamente se aceita os "rascunhos" do modelo mais pequeno ou se passa a tarefa para o modelo maior.
Esta flexibilidade permite contornar o "engarrafamento" do método de cascata e a rigidez da descodificação especulativa. Na prática, o sistema consegue aceitar uma boa resposta do modelo mais pequeno, mesmo que não corresponda exatamente à que o modelo maior produziria, algo que não era possível anteriormente.
Resultados promissores, mas ainda em fase de investigação
A equipa da Google realizou experiências com modelos como o Gemma e o T5 em várias tarefas de linguagem, como resumos, raciocínio e programação. Os resultados demonstraram que as cascatas especulativas alcançam melhores compromissos entre custo e qualidade, além de maiores ganhos de velocidade em comparação com os métodos tradicionais.
Para já, esta tecnologia ainda se encontra em fase de investigação. No entanto, se a sua eficácia se confirmar, poderá ser implementada no futuro para proporcionar uma experiência de utilização de chatbots como o ChatGPT mais rápida, eficiente e económica para todos.