
A Google acaba de apresentar o Gemini 3.1 Flash-Lite, que se posiciona como o modelo mais rápido e económico de toda a família Gemini 3. Esta novidade foi desenhada especificamente para quem lida com grandes volumes de trabalho via API e já se encontra disponível em fase de antevisão no Google AI Studio e na plataforma Vertex AI para empresas.
Com um custo de aproximadamente 0,23 euros por cada milhão de tokens de entrada e cerca de 1,39 euros por milhão de tokens de saída (valores convertidos do dólar), a tecnológica pretende atrair criadores que necessitem de realizar milhares de pedidos sem esvaziar a carteira.
Desempenho superior com custos reduzidos
Segundo os dados partilhados por Jeff Dean no X (antigo Twitter), o novo modelo consegue superar o Gemini 2.5 Flash em termos de rapidez. Os testes indicam que o tempo para o primeiro token é 2,5 vezes mais veloz, enquanto a velocidade de resposta final aumentou cerca de 45%. Estas melhorias tornam a ferramenta ideal para aplicações que exijam interações em tempo real e de alta frequência.
Apesar de ser uma versão mais leve, a inteligência artificial da Google não parece comprometer a qualidade. Em tabelas de referência como a Arena.ai, o Flash-Lite alcançou uma pontuação Elo de 1432, superando inclusive modelos de maior dimensão de laboratórios concorrentes como a OpenAI ou a Anthropic.
Velocidade e raciocínio à medida dos programadores
Este novo modelo foi pensado para enfrentar tarefas em escala, desde a tradução massiva de conteúdos até à moderação automática. Contudo, também se mostra capaz de lidar com processos mais exigentes, como a criação de interfaces de utilizador, dashboards técnicos ou o desenvolvimento de simulações complexas que exijam maior profundidade.
Uma das funcionalidades mais interessantes para os programadores é a inclusão de níveis de pensamento configuráveis no Google AI Studio e Vertex AI. Isto permite escolher manualmente o grau de raciocínio que o sistema deve aplicar a cada tarefa, ajudando a encontrar o equilíbrio perfeito entre a profundidade da resposta, a latência e o custo operacional em ambiente de produção.












Nenhum comentário
Seja o primeiro!