A Character.AI, conhecida pelas suas personagens de conversação baseadas em texto, partilhou uma investigação que a aproxima de interações visuais ao estilo de uma chamada de vídeo com inteligência artificial. A empresa desenvolveu um novo modelo, denominado TalkingMachines, capaz de gerar vídeo em tempo real de personagens IA, impulsionado por áudio e a partir de apenas uma imagem e um sinal de voz.
É crucial sublinhar que, nesta fase, tudo não passa de um projeto de investigação. Embora exista um artigo científico e demonstrações em vídeo, a funcionalidade ainda não está disponível na aplicação da Character.AI.
O que são os TalkingMachines?
Se esta tecnologia vier a ser integrada na aplicação da Character.AI, permitirá aos utilizadores um nível de imersão muito superior. Abre portas a sessões de roleplay mais realistas, narrativas interativas e até à construção de mundos de forma visual e dinâmica.
O novo modelo TalkingMachines assenta na tecnologia Diffusion Transformer (DiT). Pense nisto como um artista digital que consegue criar imagens detalhadas a partir de ruído aleatório, refinando a imagem até à perfeição. O grande avanço da Character.AI foi conseguir que este processo funcione de forma incrivelmente rápida, ao ponto de a interação se sentir em tempo real.
A tecnologia que dá vida aos avatares
Para alcançar este marco, os TalkingMachines recorrem a várias técnicas inovadoras, que trabalham em conjunto para criar uma experiência fluida e natural.
Flow-Matched Diffusion: O modelo foi treinado com uma vasta gama de movimentos, desde expressões faciais subtis a gestos mais amplos, garantindo que as personagens se movem de forma natural.
Audio-Driven Cross Attention: Esta é talvez a componente mais impressionante. Permite que a IA não só "ouça" as palavras, mas que também compreenda o ritmo, as pausas e as inflexões na voz. Depois, traduz tudo isto em movimentos precisos dos lábios, inclinações de cabeça e até no pestanejar dos olhos.
Sparse Causal Attention: Esta técnica otimiza o processamento das imagens de vídeo, tornando-o muito mais eficiente em termos de custos computacionais.
Asymmetric Distillation: É o que permite que os vídeos sejam gerados em tempo real, criando a sensação de se estar numa chamada de vídeo, como no FaceTime.
Mais do que uma simples animação facial
A Character.AI insiste que esta investigação é mais do que apenas animar rostos. É um passo significativo em direção a personagens de IA audiovisuais com as quais se pode interagir em tempo real. O modelo suporta uma vasta gama de estilos, incluindo humanos fotorrealistas, personagens de anime e avatares 3D, e permite uma transmissão com fases naturais de escuta e de fala.
Apesar do entusiasmo, a funcionalidade ainda está em fase de investigação. Contudo, se a empresa a lançar, será certamente uma das primeiras a conseguir tal feito, senão a primeira, marcando um momento notável na corrida da inteligência artificial.
Nenhum comentário
Seja o primeiro!