A Microsoft revelou a sua mais recente tecnologia de IA e de texto-para-voz com o VALL-E. Este novo sistema é capaz de simular a voz de praticamente qualquer pessoa, fornecendo apenas um excerto da mesma para análise.
Feito isto, o sistema pode ser usado para "ler" qualquer texto que se pretenda no mesmo tom. De acordo com o portal Ars Technica, este sistema permite não apenas imitar o tom da pessoa original, mas também os tons associados com a emoção na fala e até o ambiente acústico onde a pessoa se encontra. Este sistema pode vir a ser usado no futuro para ambientes profissionais de recriação de voz, ou, pelo lado negativo, para criar deepfakes.
Segundo a Microsoft, o VALL-E deriva de uma tecnologia da Meta, que permite gerar áudio a partir de conteúdos de texto, e adaptando o mesmo aos tons e efeitos de um género de áudio original. O VALL-E foi treinado com mais de 60.000 horas de mensagens em Inglês e 7000 horas de conteúdos da LibriLight da Meta.
Os resultados finais, no entanto, podem variar consideravelmente e com base na fonte de origem do áudio. Em alguns casos, as vozes continuam a soar robóticas e artificiais, mas ao mesmo tempo existem exemplos onde os conteúdos podem ser bastante realistas.
Os interessados poderão verificar mais informações sobre a tecnologia no GitHub da Microsoft criado para o efeito. Espera-se que a tecnologia venha a ser implementada em futuros sistemas da empresa.
Nenhum comentário
Seja o primeiro!