1. TugaTech » Software » Noticias de Software » OpenAI lança gpt-realtime: a nova voz da IA é mais natural, potente e barata
  Login     Registar    |                      
Siga-nos

Você não está conectado. Conecte-se ou registre-se

  

Opções



Mensagens anteriores

OpenAI lança gpt-realtime: a nova voz da IA é mais natural, potente e barata em Sex 29 Ago 2025 - 12:26

DJPRMF

OpenAI RealTime

A OpenAI anunciou hoje o gpt-realtime, o seu mais avançado modelo de conversão de voz para voz (speech-to-speech), que promete criar experiências multimodais com baixa latência, mais naturais e expressivas. Esta nova versão sucede à Realtime API, lançada em outubro de 2024, e chega com melhorias significativas tanto em desempenho como em custo.

Desde o lançamento da sua primeira API de tempo real, milhares de programadores têm vindo a criar aplicações e serviços com interações de voz mais fluidas. Com o gpt-realtime, a empresa pretende elevar ainda mais a fasquia, oferecendo um modelo mais capaz de seguir instruções complexas, chamar ferramentas com uma menor taxa de erro e gerar uma fala que soa consideravelmente mais humana.

Uma voz mais humana e novas funcionalidades na API

Uma das novidades mais audíveis é a atualização das vozes disponíveis. As seis vozes originais foram melhoradas para soarem mais naturais, e a estas juntam-se duas novas opções: Marin e Cedar. Segundo a OpenAI, o novo modelo demonstra uma capacidade superior de interpretar as mensagens de sistema e os pedidos dos programadores.

O gpt-realtime não só fala melhor, como também ouve com maior precisão. A empresa partilhou resultados de benchmarks que demonstram um salto qualitativo notável. No teste Big Bench Audio, o novo modelo atingiu 82.8% de precisão, um aumento substancial face aos 65.6% do modelo de dezembro de 2024. Melhorias semelhantes foram registadas noutros testes de áudio como o MultiChallenge e o ComplexFuncBench.

Para além do novo modelo e das vozes, a API foi enriquecida com várias atualizações. Passa agora a suportar servidores MCP remotos, inputs de imagem e chamadas telefónicas através do Session Initiation Protocol (SIP). Outra adição importante é a capacidade de os programadores guardarem e reutilizarem prompts, otimizando o fluxo de trabalho.

Mais desempenho por um preço mais baixo

Apesar de todas as melhorias de desempenho, a OpenAI surpreendeu ao anunciar uma redução de preço. A nova API gpt-realtime é 20% mais barata que a sua antecessora, a gpt-4o-realtime-preview. Os preços fixam-se agora em 32 dólares (cerca de 30€) por 1 milhão de tokens de áudio de entrada e 64 dólares (cerca de 60€) por 1 milhão de tokens de áudio de saída.

Com estas melhorias significativas de performance e uma surpreendente descida de preço, a OpenAI posiciona o gpt-realtime como uma escolha extremamente competitiva para os programadores que estão a construir a próxima geração de experiências baseadas em voz, tornando a interação com a tecnologia cada vez mais natural e acessível.



  As mensagens apresentadas em cima não são actualizadas automaticamente pelo que se uma nova mensagem for colocada enquanto se encontra nesta página, não irá aparecer na lista em cima.


Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech