
Apenas um mês após o lançamento original da família de modelos Gemma 4, a Google revelou os novos componentes de Multi-Token Prediction (MTP). Conforme detalhado no blog oficial da Google, esta arquitetura especializada de descodificação permite que modelos de grande dimensão alcancem velocidades até três vezes superiores na inferência, mantendo exatamente a mesma qualidade final e precisão de raciocínio lógico.
Como funciona a nova tecnologia de previsão
O método MTP altera a abordagem tradicional ao separar o processo de geração de tokens da sua respetiva verificação. Enquanto o modelo principal fica responsável pela validação final de cada token previsto, um modelo secundário mais leve atua como rascunho e tenta adivinhar múltiplos tokens futuros em paralelo.
Esta estratégia inteligente aproveita os recursos de processamento que habitualmente estariam inativos, permitindo ao sistema lidar com vários fragmentos de informação em simultâneo através do modelo secundário, quando a infraestrutura principal estaria ocupada com apenas um. Os modelos de peso, como o Gemma 4 26B Mixture-of-Experts (MoE) e o 31B Dense, são os grandes beneficiados desta mudança profunda na arquitetura.
Impacto prático para programadores e equipamentos locais
Com esta atualização técnica, os programadores conseguem reduzir drasticamente a latência em aplicações exigentes, sejam sistemas de conversação quase em tempo real, comunicação por voz ou fluxos de trabalho autónomos complexos. O desenvolvimento local também sai a ganhar, uma vez que o novo processo de inferência permite correr os modelos mais pesados da linha Gemma 4 em computadores pessoais e placas gráficas de consumo geral de forma altamente fluida para programar e delinear tarefas offline.
Adicionalmente, esta otimização na velocidade de saída traduz-se numa maior poupança de bateria para dispositivos móveis e sistemas na periferia da rede, beneficiando sobretudo a utilização dos modelos E2B e E4B. Para os interessados em integrar esta novidade nos seus projetos, a Google já disponibilizou as ferramentas MTP sob a licença de código aberto Apache 2.0.












Nenhum comentário
Seja o primeiro!