1. TugaTech » Internet e Redes » Noticias da Internet e Mercados
  Login     Registar    |                      
Siga-nos

Inteligência Artificial

Desde que ferramentas como o ChatGPT surgiram em 2022, os modelos de linguagem de grande escala (LLMs) tornaram-se omnipresentes. São utilizados para tudo, desde a programação à pesquisa de informação. No entanto, quem os usa com frequência já notou que, por vezes, a resposta demora a chegar. Este processo de geração de uma resposta, conhecido como inferência, é lento e exige um elevado poder computacional, o que o torna caro. Com a crescente adesão a estas tecnologias, encontrar uma forma de as tornar mais rápidas e acessíveis, sem perder qualidade, é um desafio fundamental.

As soluções atuais e os seus limites

Atualmente, existem duas abordagens principais para tentar acelerar o funcionamento dos LLMs: o método de cascata e a descodificação especulativa. No método de cascata, um modelo de IA mais pequeno e rápido tenta responder primeiro à questão. Se não conseguir, a tarefa passa para um modelo maior e mais potente, mas também mais caro e lento. Esta abordagem reduz o custo computacional, mas pode criar um "engarrafamento", pois é preciso esperar pela decisão do primeiro modelo antes de avançar.

Por outro lado, a descodificação especulativa utiliza um modelo mais pequeno para criar um "rascunho" da resposta, que é depois verificado rapidamente pelo modelo maior. O objetivo é a velocidade, mas o sistema é demasiado rígido: se uma única parte do rascunho for rejeitada, toda a proposta é descartada, mesmo que a resposta fosse boa. Este processo anula a vantagem inicial de velocidade e não resulta em qualquer poupança de recursos.

A solução híbrida da Google: o melhor de dois mundos

Perante as limitações dos métodos existentes, a equipa da Google Research desenvolveu uma nova abordagem que combina o melhor das duas técnicas, denominada "cascatas especulativas". A grande inovação é uma regra de adiamento flexível que decide dinamicamente se aceita os "rascunhos" do modelo mais pequeno ou se passa a tarefa para o modelo maior.

Esta flexibilidade permite contornar o "engarrafamento" do método de cascata e a rigidez da descodificação especulativa. Na prática, o sistema consegue aceitar uma boa resposta do modelo mais pequeno, mesmo que não corresponda exatamente à que o modelo maior produziria, algo que não era possível anteriormente.

Resultados promissores, mas ainda em fase de investigação

A equipa da Google realizou experiências com modelos como o Gemma e o T5 em várias tarefas de linguagem, como resumos, raciocínio e programação. Os resultados demonstraram que as cascatas especulativas alcançam melhores compromissos entre custo e qualidade, além de maiores ganhos de velocidade em comparação com os métodos tradicionais.

Para já, esta tecnologia ainda se encontra em fase de investigação. No entanto, se a sua eficácia se confirmar, poderá ser implementada no futuro para proporcionar uma experiência de utilização de chatbots como o ChatGPT mais rápida, eficiente e económica para todos.

Foto do Autor

Aficionado por tecnologia desde o tempo dos sistemas a preto e branco

Ver perfil do usuário Enviar uma mensagem privada Enviar um email Facebook do autor Twitter do autor Skype do autor

conectado
Encontrou algum erro neste artigo?



Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech