
A inteligência artificial está a expandir as suas fronteiras e a mais recente aposta vem reforçar o leque de capacidades multimodais que temos visto no mercado. Depois de o modelo Nano Banana ter introduzido a geração e edição de imagens no ano passado, a tecnológica anunciou agora uma evolução de peso.
Segundo a informação partilhada no blogue oficial da Google, a empresa revelou o Gemini Omni, uma nova solução que junta o poder de raciocínio lógico à criação de conteúdos em vídeo. Esta plataforma permite utilizar uma combinação de texto, imagens, áudio e vídeo como dados de entrada, gerando clipes de alta qualidade baseados no conhecimento do mundo real.
Edição de vídeo através de comandos naturais
Um dos grandes destaques do novo modelo é a capacidade de editar vídeos usando apenas linguagem natural num formato de conversa. O sistema foi desenhado para que cada instrução construa sobre a anterior, mantendo a consistência das personagens e respeitando as leis da física em cada cena.
Os utilizadores podem pedir à plataforma para transformar completamente o ambiente em redor do sujeito da gravação, alterar pormenores específicos ou até reinventar a ação de um vídeo já existente. É possível adicionar novas personagens ou objetos e aperfeiçoar o resultado final através de várias etapas, ajustando o estilo ou o ângulo sem nunca perder a ligação ao momento original.
Física realista e avatares digitais
Mais do que criar imagens apelativas, o modelo destaca-se por compreender o que deve acontecer a seguir numa sequência lógica. O sistema tem uma compreensão intuitiva avançada da gravidade, da energia cinética e da dinâmica de fluidos, colmatando a falha entre o fotorrealismo e uma narrativa coerente. Além disso, consegue transformar referências variadas, como texto e som, num resultado coeso, ajudando a simplificar ideias visuais complexas.
A plataforma permite também a criação de avatares digitais. Os criadores podem usar a sua própria imagem e voz para gerar vídeos que se assemelham a si próprios. Por questões de proteção, todos os conteúdos gerados incluem a marca de água impercetível SynthID, permitindo validar facilmente se o vídeo foi criado ou alterado por inteligência artificial na pesquisa ou noutras ferramentas da empresa. O trabalho em torno da edição livre de voz e áudio continua ainda em fase de testes para garantir um uso responsável e seguro por parte do público.
Lançamento global do modelo Flash
O primeiro modelo desta nova família, denominado Gemini Omni Flash, começa a ser disponibilizado globalmente hoje para os subscritores dos planos AI Pro e Ultra, através da respetiva aplicação e do Google Flow. Nos próximos meses, a ferramenta será atualizada para permitir também a exportação em formato de áudio e de imagem.
Além dos planos pagos, as novas funcionalidades vão chegar sem custos adicionais ao YouTube Shorts e à aplicação de criação de vídeos da plataforma ao longo desta semana. Os programadores e clientes empresariais poderão aceder a estas capacidades através de APIs nas semanas seguintes.












Nenhum comentário
Seja o primeiro!