A Google aproveitou a sua conferência anual de programadores, a I/O, para desvendar os seus mais recentes modelos de geração de média através de inteligência artificial. Entre os anúncios, destaca-se o Veo 3, a primeira versão do modelo capaz de gerar vídeos que incluem som de forma nativa.
Veo 3: a nova era de vídeos gerados por IA com som integrado
O Veo 3 representa um avanço significativo na criação de conteúdo multimédia por IA. Este modelo consegue, por exemplo, criar um vídeo de pássaros acompanhado pelo áudio do seu canto, ou uma rua citadina com os sons característicos do trânsito em pano de fundo. A Google afirma que o Veo 3 se destaca também na simulação de física do mundo real e na sincronização labial.
De momento, o acesso ao Veo 3 está limitado aos subscritores do Gemini Ultra nos Estados Unidos, através da aplicação Gemini, e a utilizadores empresariais na plataforma Vertex AI. O modelo está igualmente disponível no Flow, a nova ferramenta de produção cinematográfica com IA da Google.
Flow: a plataforma de cinema IA da Google que combina Veo, Imagen e Gemini
A nova ferramenta Flow surge como um ecossistema que integra o Veo, o Imagen e o Gemini para facilitar a criação de clipes e cenas cinematográficas. Os utilizadores podem descrever o resultado final pretendido em linguagem natural, e o Flow encarrega-se de o produzir.
Inicialmente, o Flow estará acessível apenas a subscritores dos planos Google AI Pro e Ultra nos EUA. No entanto, a Google já anunciou que planeia expandir a disponibilidade para mais países em breve, o que poderá incluir Portugal futuramente.
Veo 2 continua relevante com novas funcionalidades de referência e controlo
Apesar do lançamento do seu sucessor, a Google não abandonou o Veo 2. Os utilizadores poderão fornecer ao Veo 2 imagens de pessoas, cenários, estilos e objetos para servirem de referência na criação dos seus projetos dentro do Flow. Terão também acesso a controlos de câmara, permitindo rodar cenas e aplicar zoom a objetos específicos. Adicionalmente, será possível expandir os fotogramas de retrato para paisagem e adicionar ou remover objetos dos vídeos.
Imagen 4: geração de imagens com detalhe e tipografia aprimorados
No campo da geração de imagens, a Google apresentou o Imagen 4. A empresa sublinha que este novo modelo consegue reproduzir detalhes finos, como tecidos complexos e pelo de animal, com uma "clareza notável", e sobressai na criação tanto de imagens fotorrealistas como abstratas.
O Imagen 4 demonstra uma capacidade significativamente melhorada na renderização de tipografia em comparação com os seus antecessores e pode criar imagens em diversos rácios de aspeto com resoluções até 2K. Esta ferramenta já está disponível através da aplicação Gemini, na Vertex AI e em aplicações do Workspace, como o Docs e o Slides. A Google adiantou ainda que lançará "em breve" uma versão do Imagen 4 dez vezes mais rápida que o Imagen 3.
SynthID Detector: a aposta da Google para identificar conteúdo gerado por IA
Para ajudar a identificar conteúdo gerado por inteligência artificial, uma tarefa cada vez mais desafiante, a Google lançou o SynthID Detector. Trata-se de um portal onde os utilizadores podem carregar um ficheiro multimédia que suspeitem ser gerado por IA. A plataforma analisará se o conteúdo possui o SynthID, a ferramenta de marca d'água e identificação para arte criada por IA da Google.
Embora a Google tenha disponibilizado a sua ferramenta de marca d'água em código aberto, nem todos os geradores de imagem a utilizam. Consequentemente, o portal não conseguirá identificar a totalidade das imagens geradas por IA.
Nenhum comentário
Seja o primeiro!