
A empresa francesa de inteligência artificial Mistral anunciou na quinta-feira o lançamento do Voxtral TTS, um novo modelo de conversão de texto para voz de código aberto. Direcionado para a criação de assistentes de voz e serviços de apoio ao cliente no setor empresarial, este lançamento coloca a tecnológica em concorrência direta com nomes de peso como a ElevenLabs, a Deepgram e a OpenAI, conforme partilhado em entrevista ao TechCrunch.
Uma voz à medida em apenas cinco segundos
O novo modelo destaca-se pela sua elevada capacidade de personalização e eficiência. Com uma amostra de áudio inferior a cinco segundos, o Voxtral TTS consegue clonar uma voz específica, captando detalhes cruciais como sotaques, inflexões e a cadência natural da fala humana. Desenvolvido com base no Ministral 3B, o sistema é capaz de falar em nove idiomas distintos, entre os quais o português, inglês, francês, alemão, espanhol, neerlandês, italiano, hindi e árabe.
A ferramenta permite ainda alternar entre línguas de forma fluida sem perder as características únicas do locutor, uma funcionalidade pensada para tarefas de dobragem ou tradução em tempo real. Pierre Stock, vice-presidente de operações científicas da empresa, sublinhou que os clientes procuravam uma solução acessível e compacta. O resultado é um modelo que pode operar diretamente em equipamentos locais, cabendo num smartwatch, num telemóvel ou num portátil, oferecendo um desempenho de topo por uma fração do custo das alternativas do mercado.
Desempenho quase instantâneo e a aposta multimodal
Para garantir que as interações geradas soem humanas e não robóticas, a velocidade de processamento foi uma prioridade. O modelo foi construído para funcionar em tempo real, registando um tempo de resposta até ao primeiro áudio de apenas 90 milissegundos ao processar uma amostra de dez segundos com 500 caracteres. Com um fator de tempo real de 6x, a inteligência artificial consegue renderizar um clipe de dez segundos em aproximadamente 1,6 segundos.
Este lançamento complementa os modelos de transcrição apresentados pela Mistral no início do ano. A estratégia da empresa passa agora por construir uma plataforma integral capaz de gerir fluxos de informação multimodais, processando e cruzando dados de áudio, texto e imagem. Ao manter uma abordagem open-source, a Mistral aposta na flexibilidade, permitindo que as empresas personalizem e ajustem os modelos à sua medida, um fator diferenciador perante as ofertas da concorrência.












Nenhum comentário
Seja o primeiro!