A Google parece estar a preparar mais uma incursão no mundo da inteligência artificial generativa, desta vez com uma funcionalidade que poderá transformar simples instruções de texto em vídeos curtos e dinâmicos, ao estilo do TikTok. A novidade, apelidada de "Sparks", está a ser desenvolvida dentro do projeto Illuminate da Google, uma ferramenta já conhecida pela sua capacidade de converter extensos documentos de investigação em discussões áudio geradas por IA.
Segundo descobertas recentes, divulgadas este domingo pelo site TestingCatalog, o Illuminate está a expandir as suas competências para além dos resumos áudio – para os quais os utilizadores têm atualmente um limite de 20 gerações diárias. Uma atualização recente revelou uma página inicial com resumos áudio de IA, incluindo suporte para obras clássicas como Frankenstein e O Grande Gatsby, e controlos experimentais como um botão de edição e geração de imagens para capas. Contudo, a adição mais intrigante é, sem dúvida, a secção "Sparks".
O que são os "Sparks" e como podem funcionar?
Os "Sparks" são descritos como uma ferramenta capaz de transformar qualquer pergunta ou instrução de texto num pequeno vídeo explicativo, sendo "100% gerado por IA". Isto sugere que um único modelo de inteligência artificial será responsável por criar tanto o conteúdo visual como o áudio de forma sincronizada, a partir do prompt fornecido pelo utilizador.
O TestingCatalog refere ter visualizado amostras destes vídeos verticais, com durações que variam entre um e três minutos. No entanto, a ferramenta de criação propriamente dita parece, para já, estar reservada para uso interno na Google. O site partilhou algumas destas amostras numa publicação na rede social X (anteriormente Twitter), dando um vislumbre do potencial desta tecnologia.
Tecnologia de ponta por detrás da câmara?
A qualidade dos vídeos de amostra já deu azo a especulação sobre a tecnologia que a Google poderá estar a empregar. Há quem sugira que modelos de IA avançados da empresa, como o Veo (especializado em geração de vídeo) ou uma versão multimodal poderosa do Gemini, possam estar na base da criação destes "Sparks". A capacidade de gerar vídeo e áudio sincronizados a partir de um simples comando de texto representa um avanço significativo na área da IA generativa.
Uma teia de IA em expansão: Illuminate e NotebookLM partilham tecnologia?
Outro ponto de interesse é a potencial ligação dos "Sparks" com outros serviços experimentais de IA da Google, nomeadamente o NotebookLM. Este último é uma ferramenta de investigação e anotações assistida por IA, para a qual a Google já confirmou planos de adicionar uma funcionalidade de resumo em vídeo com dois apresentadores gerados por IA, capazes de explicar o conteúdo dos documentos carregados pelo utilizador.
Dada a natureza conversacional e o formato de resumo em vídeo, o TestingCatalog levanta a hipótese plausível de que os "Sparks" do Illuminate e as futuras funcionalidades de vídeo do NotebookLM possam estar a ser construídos sobre a mesma tecnologia subjacente. Isto indicaria um esforço da Google para criar um ecossistema de ferramentas de IA cada vez mais interligado e versátil.
Embora muitas destas funcionalidades ainda estejam numa fase experimental e não disponíveis ao público em geral, os "Sparks" demonstram a contínua aposta da Google em expandir as fronteiras do que é possível fazer com a inteligência artificial, especialmente no campo da criação de conteúdo multimédia.
Nenhum comentário
Seja o primeiro!