Responder

logo da Mistral AI com fundo de som

À medida que os sistemas de Inteligência Artificial se tornam mais avançados, a voz estabelece-se rapidamente como a forma padrão de comunicação com as máquinas. A startup francesa de IA, Mistral, entrou na corrida do áudio com o seu primeiro modelo aberto, procurando desafiar o domínio dos sistemas corporativos fechados com alternativas de código aberto.

Esta terça-feira, a Mistral anunciou o lançamento do Voxtral, a sua primeira família de modelos de áudio destinados ao mercado empresarial. A empresa posiciona o Voxtral como o primeiro modelo aberto capaz de implementar "inteligência de voz verdadeiramente utilizável em produção".

Uma alternativa poderosa e acessível

Até agora, os programadores enfrentavam um dilema: ou optavam por um sistema aberto, mais barato, que cometia erros de transcrição e não compreendia realmente o que era dito, ou escolhiam um sistema fechado, funcionalmente superior, mas com uma fatura mais elevada e menor controlo sobre a sua implementação.

O Voxtral surge como uma solução para este problema, oferecendo uma alternativa de baixo custo que, segundo a empresa, tem "menos de metade do preço" de soluções comparáveis no mercado. O modelo consegue transcrever até 30 minutos de áudio e, graças ao seu LLM base, o Mistral Small 3.1, pode compreender até 40 minutos de conteúdo. Isto permite aos utilizadores fazer perguntas sobre o áudio, gerar resumos ou transformar comandos de voz em ações em tempo real, como chamar APIs ou executar funções.

Além disso, o Voxtral é multilingue, com capacidade para transcrever e compreender idiomas como inglês, espanhol, francês, português, hindi, alemão, holandês e italiano.

Modelos para todas as necessidades

A Mistral disponibiliza duas variantes dos seus "modelos de compreensão de voz":

Voxtral Small: Com 24 mil milhões de parâmetros, este modelo foi desenhado para implementações em larga escala e compete diretamente com soluções como o ElevenLabs Scribe, GPT-4o-mini e Gemini 2.5 Flash.
Voxtral Mini: Com 3 mil milhões de parâmetros, é ideal para implementações locais e em dispositivos de "edge computing".

Existe ainda uma versão API ultrarrápida e de custo reduzido do modelo de 3 mil milhões, chamada Voxtral Mini Transcribe. Esta versão é otimizada exclusivamente para casos de uso de transcrição e promete superar o Whisper da OpenAI por menos de metade do preço.

Preços e disponibilidade

Os utilizadores podem experimentar o Voxtral gratuitamente descarregando a API no Hugging Face ou testando os modelos no chatbot da Mistral, o Le Chat. A integração da API em aplicações tem um custo inicial de 0,001 dólares por minuto, de acordo com a empresa.

Este lançamento ocorre um mês após a Mistral ter anunciado a família Magistral, os seus primeiros modelos de raciocínio que resolvem problemas passo a passo para maior fiabilidade. A Mistral, uma das principais empresas de IA na Europa, é uma forte defensora de modelos de IA de código aberto.

Mensagens anteriores

Mistral desafia gigantes da tecnologia com Voxtral, a sua nova IA de áudio open source em Ter 15 Jul 2025 - 16:41

DJPRMF