1. TugaTech » Internet e Redes » Noticias da Internet e Mercados
  Login     Registar    |                      

Siga-nos


Gemini Omni

A inteligência artificial está a expandir as suas fronteiras e a mais recente aposta vem reforçar o leque de capacidades multimodais que temos visto no mercado. Depois de o modelo Nano Banana ter introduzido a geração e edição de imagens no ano passado, a tecnológica anunciou agora uma evolução de peso.

Segundo a informação partilhada no blogue oficial da Google, a empresa revelou o Gemini Omni, uma nova solução que junta o poder de raciocínio lógico à criação de conteúdos em vídeo. Esta plataforma permite utilizar uma combinação de texto, imagens, áudio e vídeo como dados de entrada, gerando clipes de alta qualidade baseados no conhecimento do mundo real.

Edição de vídeo através de comandos naturais

Um dos grandes destaques do novo modelo é a capacidade de editar vídeos usando apenas linguagem natural num formato de conversa. O sistema foi desenhado para que cada instrução construa sobre a anterior, mantendo a consistência das personagens e respeitando as leis da física em cada cena.

Os utilizadores podem pedir à plataforma para transformar completamente o ambiente em redor do sujeito da gravação, alterar pormenores específicos ou até reinventar a ação de um vídeo já existente. É possível adicionar novas personagens ou objetos e aperfeiçoar o resultado final através de várias etapas, ajustando o estilo ou o ângulo sem nunca perder a ligação ao momento original.

 

Física realista e avatares digitais

Mais do que criar imagens apelativas, o modelo destaca-se por compreender o que deve acontecer a seguir numa sequência lógica. O sistema tem uma compreensão intuitiva avançada da gravidade, da energia cinética e da dinâmica de fluidos, colmatando a falha entre o fotorrealismo e uma narrativa coerente. Além disso, consegue transformar referências variadas, como texto e som, num resultado coeso, ajudando a simplificar ideias visuais complexas.

A plataforma permite também a criação de avatares digitais. Os criadores podem usar a sua própria imagem e voz para gerar vídeos que se assemelham a si próprios. Por questões de proteção, todos os conteúdos gerados incluem a marca de água impercetível SynthID, permitindo validar facilmente se o vídeo foi criado ou alterado por inteligência artificial na pesquisa ou noutras ferramentas da empresa. O trabalho em torno da edição livre de voz e áudio continua ainda em fase de testes para garantir um uso responsável e seguro por parte do público.

Lançamento global do modelo Flash

O primeiro modelo desta nova família, denominado Gemini Omni Flash, começa a ser disponibilizado globalmente hoje para os subscritores dos planos AI Pro e Ultra, através da respetiva aplicação e do Google Flow. Nos próximos meses, a ferramenta será atualizada para permitir também a exportação em formato de áudio e de imagem.

Além dos planos pagos, as novas funcionalidades vão chegar sem custos adicionais ao YouTube Shorts e à aplicação de criação de vídeos da plataforma ao longo desta semana. Os programadores e clientes empresariais poderão aceder a estas capacidades através de APIs nas semanas seguintes.

Foto do Autor

Aficionado por tecnologia desde o tempo dos sistemas a preto e branco

Ver perfil do usuário Enviar uma mensagem privada Enviar um email Facebook do autor Twitter do autor Skype do autor

conectado
Encontrou algum erro neste artigo?

Não perca nenhuma novidade!

Junte-se a milhares de leitores e receba as últimas notícias de tecnologia, análises e dicas diretamente no seu email.

Nenhum comentário

Seja o primeiro!





Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech