A OpenAI tem vindo a realizar vários avanços nas suas tecnologias de Inteligência Artificial, com a chegada do “Deep Research” e dos Operadores. E agora, a entidade pretende realizar avanços também sobre os seus modelos de voz, que são usados no sistema de conversa do ChatGPT.
A OpenAI revelou hoje a chegada dos seus novos modelos de áudio speech-to-text e text-to-speech, que vão começar por ficar disponíveis para a API da empresa. Estes irão permitir aos programadores terem novas formas de criarem conteúdos personalizados, e com uma qualidade superior.
Os novos modelos gpt-4o-transcribe e gpt-4o-mini-transcribe fornecem melhorias consideráveis face aos modelos anteriores, tanto a nível de reconhecimento dos idiomas como em fiabilidade dos resultados, em comparação com os modelos Whisper existentes.
Os modelos foram extensamente treinados para fornecerem os melhores resultados possíveis nas tarefas a que se destinam, usando modelos de base de alta qualidade.
A OpenAI afirma que estes novos modelos são capazes de identificar nuances na fala, reduzir os erros e melhorar a transcrição dos textos em geral. No final, isto resulta em conteúdos de áudio com ainda mais qualidade face aos que eram criados pelos modelos anteriormente existentes.
A OpenAI deixou ainda uma mensagem relativamente a estes modelos e ao futuro dos mesmos, indicando que "Olhando para o futuro, planeamos continuar a investir na melhoria da inteligência e precisão dos nossos modelos de áudio e a explorar formas de permitir que os programadores tragam as suas próprias vozes personalizadas para criar experiências ainda mais personalizadas, de formas que estejam alinhadas com os nossos padrões de segurança."
Estes novos modelos de áudio da OpenAI devem encontrar-se desde já disponíveis para todos os programadores via a API da plataforma.
Nenhum comentário
Seja o primeiro!