Google lança novo Gemini Embedding 2 para unificar texto, imagem e vídeo

Escrito por **Pedro Fernandes (DJPRMF)** · 10/03/2026

Gemini Embedding 2

A Google revelou o seu mais recente avanço no campo da inteligência artificial com o lançamento do Gemini Embedding 2. Trata-se do primeiro modelo de incorporação nativo e multimodal da gigante das pesquisas, desenhado para mapear texto, fotografias, vídeos e documentos para um único espaço de análise. A par das novas funções para as aplicações Workspace, esta novidade promete mudar a forma como as máquinas interpretam o nosso mundo.

De acordo com a publicação no blog oficial da empresa, ao contrário dos modelos generativos tradicionais que criam conteúdo novo, os modelos de embedding servem essencialmente para a compreensão. Eles convertem diferentes formatos de ficheiros em vetores matemáticos que uma máquina consegue ler e analisar facilmente. Isto permite obter resultados muito mais precisos do que a simples pesquisa por palavras-chave, facilitando a pesquisa semântica e a classificação de dados.

O que muda com o novo modelo multimodal

A primeira versão desta tecnologia focava-se exclusivamente em texto. Agora, a nova iteração consegue agregar múltiplos tipos de formatos e captar a intenção semântica em cerca de 100 idiomas diferentes. Isto significa que a IA consegue processar pedidos complexos que misturem texto e imagens em simultâneo.

Para garantir um bom desempenho, o sistema tem alguns limites de capacidade definidos para cada tipo de formato. No caso do texto, a janela de contexto vai até aos 8192 tokens. Para o conteúdo visual, é possível enviar até seis imagens por pedido, suportando os formatos habituais como PNG e JPEG. Na área multimédia, o modelo analisa até 120 segundos de vídeo em MP4 ou MOV, e consegue processar faixas de áudio nativamente, sem exigir transcrições prévias. Por fim, os utilizadores podem também fornecer documentos em formato PDF com um limite máximo de seis páginas.

Casos de uso prático e disponibilidade

A empresa explica que esta evolução simplifica processos complexos e melhora as mais variadas tarefas, desde a análise de sentimentos até à organização de grandes volumes de dados. Como exemplo prático, a tecnologia pode ser uma ferramenta valiosa para profissionais da área jurídica que precisem de vasculhar milhões de registos, vídeos ou fotografias para encontrar detalhes cruciais durante um processo em tribunal.

O novo Gemini Embedding 2 encontra-se atualmente disponível numa fase de antevisão pública para os programadores e curiosos, podendo ser testado através da Gemini API e da plataforma Vertex AI. Para quem precisa de realizar tarefas exclusivas com texto de forma mais simples, a versão original do modelo continua totalmente acessível e operacional.

Nenhum comentário

Seja o primeiro!