
A empresa francesa Mistral AI continua a agitar o mercado tecnológico e acaba de apresentar a sua mais recente inovação no campo do reconhecimento de voz. Com o lançamento do Voxtral Transcribe 2, a empresa introduz dois novos modelos de "speech-to-text" que prometem elevar a qualidade das transcrições, identificar diferentes oradores e funcionar com uma latência extremamente baixa.
Esta nova família de produtos divide-se em duas vertentes principais: o Voxtral Mini Transcribe V2, focado no processamento de grandes volumes de dados (batch), e o Voxtral Realtime, desenhado especificamente para quem precisa de resultados imediatos em fluxos de trabalho ao vivo.
Potência para processamento em lote e suporte a português
Para tarefas que não exigem uma resposta instantânea, o Voxtral Mini Transcribe V2 apresenta-se como uma solução robusta e económica. Este modelo foi otimizado para oferecer taxas de erro de palavras reduzidas, garantindo uma precisão elevada nas transcrições.
Uma das grandes mais-valias deste modelo é a capacidade de "diarização" de oradores (identificar quem está a falar e quando), além de fornecer carimbos de tempo ao nível da palavra. Para o público nacional, a grande notícia é o suporte linguístico: o modelo é compatível com 13 idiomas, incluindo o português, juntando-se ao inglês, espanhol, francês, alemão, entre outros.
Esta versatilidade torna-o ideal para empresas e programadores que necessitam de transcrever longas gravações, reuniões ou ficheiros de áudio, aproveitando o poder da IA para automatizar processos que antes eram manuais e morosos.
Velocidade em tempo real e privacidade local
A segunda estrela deste lançamento é o Voxtral Realtime. Como o nome indica, este modelo foi construído de raiz para lidar com conversas ao vivo. A Mistral AI destaca a sua capacidade de operar com uma latência incrivelmente baixa, na ordem dos 200 milissegundos, o que é fundamental para assistentes de voz e sistemas interativos onde qualquer atraso pode quebrar a naturalidade da conversa.
Um ponto crucial é que o Voxtral Realtime é disponibilizado com "open-weights" sob a licença Apache 2.0. Com um tamanho compacto de apenas 4 mil milhões de parâmetros, este modelo pode correr diretamente em dispositivos locais (edge devices). Isto não só melhora a eficiência, como reforça significativamente a privacidade dos utilizadores, uma vez que os dados de voz não precisam de sair do dispositivo para serem processados.
Para quem quiser experimentar estas novidades, a empresa lançou também um "audio playground" no Mistral Studio, permitindo testar as capacidades de transcrição e diarização em tempo real, conforme detalhado no anúncio oficial da Mistral AI.










Nenhum comentário
Seja o primeiro!