A Google anunciou esta terça-feira, durante o evento Google I/O 2025, melhorias significativas na capacidade de conversão de texto em voz (TTS) do seu modelo de inteligência artificial, Gemini. A nova funcionalidade, assente numa saída de áudio nativa, promete conversações consideravelmente mais expressivas e naturais.
Uma conversação mais humana e menos robótica
Durante uma demonstração em palco, em Mountain View, Tulsee Doshi, da Google, apresentou as novas capacidades dos modelos TTS do Gemini 2.5. A voz gerada por IA soou notoriamente mais natural e menos robotizada, com nuances subtis que enriquecem a experiência auditiva. O objetivo é claro: tornar as interações com o Gemini mais fluidas e humanas.
Versatilidade linguística e tonal em destaque
Uma das grandes novidades é a capacidade do sistema TTS de conversar em mais de 24 línguas, alternando entre elas de forma transparente e imediata. Na demonstração, o modelo iniciou a conversação em inglês, transitou para hindi e regressou ao inglês, utilizando sempre a mesma voz, o que contribui para a perceção de se estar a interagir com a mesma "pessoa". Além da impressionante capacidade multilingue, o TTS consegue também alterar o tom da voz dinamicamente, incluindo a capacidade de sussurrar – uma funcionalidade que, na demonstração, foi descrita como soando "um pouco arrepiante".
Disponibilidade imediata para programadores
Para os programadores interessados em explorar estas novas capacidades, a Google informou que a nova tecnologia de conversão de texto em voz está disponível a partir de hoje na API do Gemini. Adicionalmente, também esta terça-feira, a API Gemini Live passará a contar com uma pré-visualização do Gemini 2.5 Flash, focada no diálogo com áudio nativo. Estas atualizações abrem portas para a criação de aplicações e serviços com interações de voz mais ricas e sofisticadas.
Nenhum comentário
Seja o primeiro!