1. TugaTech » Software » Noticias de Software
  Login     Registar    |                      
Siga-nos

OpenAI RealTime

A OpenAI anunciou hoje o gpt-realtime, o seu mais avançado modelo de conversão de voz para voz (speech-to-speech), que promete criar experiências multimodais com baixa latência, mais naturais e expressivas. Esta nova versão sucede à Realtime API, lançada em outubro de 2024, e chega com melhorias significativas tanto em desempenho como em custo.

Desde o lançamento da sua primeira API de tempo real, milhares de programadores têm vindo a criar aplicações e serviços com interações de voz mais fluidas. Com o gpt-realtime, a empresa pretende elevar ainda mais a fasquia, oferecendo um modelo mais capaz de seguir instruções complexas, chamar ferramentas com uma menor taxa de erro e gerar uma fala que soa consideravelmente mais humana.

Uma voz mais humana e novas funcionalidades na API

Uma das novidades mais audíveis é a atualização das vozes disponíveis. As seis vozes originais foram melhoradas para soarem mais naturais, e a estas juntam-se duas novas opções: Marin e Cedar. Segundo a OpenAI, o novo modelo demonstra uma capacidade superior de interpretar as mensagens de sistema e os pedidos dos programadores.

O gpt-realtime não só fala melhor, como também ouve com maior precisão. A empresa partilhou resultados de benchmarks que demonstram um salto qualitativo notável. No teste Big Bench Audio, o novo modelo atingiu 82.8% de precisão, um aumento substancial face aos 65.6% do modelo de dezembro de 2024. Melhorias semelhantes foram registadas noutros testes de áudio como o MultiChallenge e o ComplexFuncBench.

Para além do novo modelo e das vozes, a API foi enriquecida com várias atualizações. Passa agora a suportar servidores MCP remotos, inputs de imagem e chamadas telefónicas através do Session Initiation Protocol (SIP). Outra adição importante é a capacidade de os programadores guardarem e reutilizarem prompts, otimizando o fluxo de trabalho.

Mais desempenho por um preço mais baixo

Apesar de todas as melhorias de desempenho, a OpenAI surpreendeu ao anunciar uma redução de preço. A nova API gpt-realtime é 20% mais barata que a sua antecessora, a gpt-4o-realtime-preview. Os preços fixam-se agora em 32 dólares (cerca de 30€) por 1 milhão de tokens de áudio de entrada e 64 dólares (cerca de 60€) por 1 milhão de tokens de áudio de saída.

Com estas melhorias significativas de performance e uma surpreendente descida de preço, a OpenAI posiciona o gpt-realtime como uma escolha extremamente competitiva para os programadores que estão a construir a próxima geração de experiências baseadas em voz, tornando a interação com a tecnologia cada vez mais natural e acessível.




Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech