1. TugaTech » Internet e Redes » Noticias da Internet e Mercados » Microsoft lança voz de IA que o consegue imitar em segundos
  Login     Registar    |                      
Siga-nos

Você não está conectado. Conecte-se ou registre-se

  

Opções



Mensagens anteriores

Microsoft lança voz de IA que o consegue imitar em segundos em Qui 31 Jul 2025 - 9:57

DJPRMF

Microsoft logo

A Microsoft acaba de elevar a fasquia no campo das vozes sintéticas com uma importante atualização para a sua funcionalidade Personal Voice no Azure AI Speech. A nova versão, assente no modelo DragonV2.1Neural, promete uma capacidade de clonagem de voz ultra-realista e expressiva a partir de uma amostra de áudio de apenas alguns segundos.

Uma voz mais natural e precisa

Este novo modelo é do tipo "zero-shot", o que significa que a sua capacidade de aprender e replicar uma voz é drasticamente mais rápida e eficiente, não necessitando de grandes volumes de dados. Segundo a Microsoft, o DragonV2.1Neural oferece uma sonoridade mais natural, com uma prosódia (o ritmo e entoação da fala) mais realista e estável, mantendo ao mesmo tempo uma maior precisão na pronúncia.

A atualização representa um salto qualitativo face ao modelo anterior, o DragonV1, que apresentava algumas dificuldades, especialmente na pronúncia de nomes próprios ou entidades específicas. Em termos de métricas, o novo modelo demonstra uma redução relativa de 12,8% na Taxa de Erro de Palavra (WER), um indicador claro da sua superioridade técnica.

Aplicações práticas e controlo sem precedentes

As potencialidades desta tecnologia são vastas. As empresas podem agora criar vozes personalizadas para os seus chatbots de assistência ou, de forma ainda mais impressionante, realizar a dobragem de conteúdos de vídeo para mais de 100 idiomas, mantendo a voz original do ator.

Um dos trunfos do DragonV2.1 é o controlo detalhado que oferece aos programadores. Utilizando SSML (Speech Synthesis Markup Language) e léxicos personalizados, é possível ajustar a pronúncia e, crucialmente, o sotaque. Esta capacidade é fundamental para projetos de tradução de vídeo e áudio que exigem fidelidade e coerência regional. Para facilitar os primeiros passos, a Microsoft já disponibilizou perfis de voz pré-construídos, como "Andrew", "Ava" e "Brian", para testes.

O combate ao risco de deepfakes

Consciente de que uma tecnologia tão poderosa aumenta o risco de criação de deepfakes por agentes maliciosos, a Microsoft implementou uma política de utilização restrita e várias salvaguardas. Para ter acesso à funcionalidade, os utilizadores têm de concordar com termos de uso rigorosos.

Estes termos incluem a obrigatoriedade de obter consentimento explícito do orador original cuja voz será clonada, a divulgação clara de que o conteúdo de áudio é sintético e a proibição categórica do seu uso para fins de personificação, fraude ou engano.

Marcas de água digitais e como experimentar

Para reforçar a segurança, a gigante de Redmond vai adicionar automaticamente marcas de água digitais a todo o áudio gerado. Esta tecnologia de marca d'água, segundo a empresa, atinge uma precisão de deteção de 99,7% em vários cenários de edição de áudio, o que poderá ajudar a identificar e mitigar o uso indevido das vozes geradas por IA.

Os interessados podem experimentar uma versão de teste da funcionalidade na plataforma Speech Studio. Para uma utilização comercial e acesso completo à API, é necessário submeter uma candidatura para aprovação por parte da Microsoft.



  As mensagens apresentadas em cima não são actualizadas automaticamente pelo que se uma nova mensagem for colocada enquanto se encontra nesta página, não irá aparecer na lista em cima.


Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech