Microsoft lança voz de IA que o consegue imitar em segundos

31/07/2025

Microsoft logo

A Microsoft acaba de elevar a fasquia no campo das vozes sintéticas com uma importante atualização para a sua funcionalidade Personal Voice no Azure AI Speech. A nova versão, assente no modelo DragonV2.1Neural, promete uma capacidade de clonagem de voz ultra-realista e expressiva a partir de uma amostra de áudio de apenas alguns segundos.

Uma voz mais natural e precisa

Este novo modelo é do tipo "zero-shot", o que significa que a sua capacidade de aprender e replicar uma voz é drasticamente mais rápida e eficiente, não necessitando de grandes volumes de dados. Segundo a Microsoft, o DragonV2.1Neural oferece uma sonoridade mais natural, com uma prosódia (o ritmo e entoação da fala) mais realista e estável, mantendo ao mesmo tempo uma maior precisão na pronúncia.

A atualização representa um salto qualitativo face ao modelo anterior, o DragonV1, que apresentava algumas dificuldades, especialmente na pronúncia de nomes próprios ou entidades específicas. Em termos de métricas, o novo modelo demonstra uma redução relativa de 12,8% na Taxa de Erro de Palavra (WER), um indicador claro da sua superioridade técnica.

Aplicações práticas e controlo sem precedentes

As potencialidades desta tecnologia são vastas. As empresas podem agora criar vozes personalizadas para os seus chatbots de assistência ou, de forma ainda mais impressionante, realizar a dobragem de conteúdos de vídeo para mais de 100 idiomas, mantendo a voz original do ator.

Um dos trunfos do DragonV2.1 é o controlo detalhado que oferece aos programadores. Utilizando SSML (Speech Synthesis Markup Language) e léxicos personalizados, é possível ajustar a pronúncia e, crucialmente, o sotaque. Esta capacidade é fundamental para projetos de tradução de vídeo e áudio que exigem fidelidade e coerência regional. Para facilitar os primeiros passos, a Microsoft já disponibilizou perfis de voz pré-construídos, como "Andrew", "Ava" e "Brian", para testes.

O combate ao risco de deepfakes

Consciente de que uma tecnologia tão poderosa aumenta o risco de criação de deepfakes por agentes maliciosos, a Microsoft implementou uma política de utilização restrita e várias salvaguardas. Para ter acesso à funcionalidade, os utilizadores têm de concordar com termos de uso rigorosos.

Estes termos incluem a obrigatoriedade de obter consentimento explícito do orador original cuja voz será clonada, a divulgação clara de que o conteúdo de áudio é sintético e a proibição categórica do seu uso para fins de personificação, fraude ou engano.

Marcas de água digitais e como experimentar

Para reforçar a segurança, a gigante de Redmond vai adicionar automaticamente marcas de água digitais a todo o áudio gerado. Esta tecnologia de marca d'água, segundo a empresa, atinge uma precisão de deteção de 99,7% em vários cenários de edição de áudio, o que poderá ajudar a identificar e mitigar o uso indevido das vozes geradas por IA.

Os interessados podem experimentar uma versão de teste da funcionalidade na plataforma Speech Studio. Para uma utilização comercial e acesso completo à API, é necessário submeter uma candidatura para aprovação por parte da Microsoft.

Nenhum comentário

Seja o primeiro!