1. TugaTech » Software » Noticias de Software » Google I/O 2025: Gemini recebe TTS com voz mais expressiva, natural e poliglota
  Login     Registar    |                      
Siga-nos

Você não está conectado. Conecte-se ou registre-se

  

Opções



Mensagens anteriores

Google I/O 2025: Gemini recebe TTS com voz mais expressiva, natural e poliglota em Ter 20 maio 2025 - 20:26

DJPRMF

Sistema de tradução em tempo real da Google

A Google anunciou esta terça-feira, durante o evento Google I/O 2025, melhorias significativas na capacidade de conversão de texto em voz (TTS) do seu modelo de inteligência artificial, Gemini. A nova funcionalidade, assente numa saída de áudio nativa, promete conversações consideravelmente mais expressivas e naturais.

Uma conversação mais humana e menos robótica

Durante uma demonstração em palco, em Mountain View, Tulsee Doshi, da Google, apresentou as novas capacidades dos modelos TTS do Gemini 2.5. A voz gerada por IA soou notoriamente mais natural e menos robotizada, com nuances subtis que enriquecem a experiência auditiva. O objetivo é claro: tornar as interações com o Gemini mais fluidas e humanas.

Versatilidade linguística e tonal em destaque

Uma das grandes novidades é a capacidade do sistema TTS de conversar em mais de 24 línguas, alternando entre elas de forma transparente e imediata. Na demonstração, o modelo iniciou a conversação em inglês, transitou para hindi e regressou ao inglês, utilizando sempre a mesma voz, o que contribui para a perceção de se estar a interagir com a mesma "pessoa". Além da impressionante capacidade multilingue, o TTS consegue também alterar o tom da voz dinamicamente, incluindo a capacidade de sussurrar – uma funcionalidade que, na demonstração, foi descrita como soando "um pouco arrepiante".

Disponibilidade imediata para programadores

Para os programadores interessados em explorar estas novas capacidades, a Google informou que a nova tecnologia de conversão de texto em voz está disponível a partir de hoje na API do Gemini. Adicionalmente, também esta terça-feira, a API Gemini Live passará a contar com uma pré-visualização do Gemini 2.5 Flash, focada no diálogo com áudio nativo. Estas atualizações abrem portas para a criação de aplicações e serviços com interações de voz mais ricas e sofisticadas.



  As mensagens apresentadas em cima não são actualizadas automaticamente pelo que se uma nova mensagem for colocada enquanto se encontra nesta página, não irá aparecer na lista em cima.


Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech