Alibaba lança Qwen3.5-Omni com capacidades que superam o Gemini em áudio

Escrito por **Pedro Fernandes (DJPRMF)** · 03/04/2026

Qwen 3.5 Omni Plus

A gigante tecnológica chinesa Alibaba Cloud acaba de expandir o seu leque de ofertas com a introdução da série Qwen3.5-Omni, um novo modelo de linguagem de grande escala omnimodal. De acordo com os detalhes partilhados no blogue oficial da Qwen, esta nova aposta destaca-se por suportar nativamente a compreensão integrada de texto, imagem, áudio e conteúdo audiovisual, elevando a fasquia na competição dos modelos de IA. A linha abrange as variantes de instrução Plus, Flash e Light, introduzindo ainda o modelo específico Qwen3.5-Omni-Plus-Realtime.

Processamento massivo e desempenho de topo

A arquitetura destes novos modelos assenta num sistema híbrido que mistura especialistas para os seus componentes de pensamento e comunicação. Na prática, isto traduz-se numa capacidade impressionante de lidar com um contexto contínuo de 256 mil tokens. O modelo consegue analisar mais de 10 horas de áudio de forma ininterrupta ou processar mais de 400 segundos de vídeo em resolução 720p a um fotograma por segundo. Tudo isto resulta de um treino intensivo em extensas bases de dados multimodais, que incluíram mais de 100 milhões de horas de material audiovisual, garantindo uma perceção e geração de conteúdos bastante sólida em diversos formatos.

A rivalidade direta com o Gemini

No que toca à linguagem, a plataforma apresenta um reconhecimento de voz otimizado para 113 idiomas e dialetos, e consegue gerar fala em 36 línguas diferentes. Estas atualizações multilingues dão-lhe um alcance global considerável, mas o verdadeiro trunfo está no embate frente à concorrência. A versão Plus do Qwen3.5-Omni consegue mesmo superar as capacidades do Gemini na versão 3.1 Pro no que diz respeito a tarefas puramente de áudio, igualando o modelo da Google na compreensão de cenários audiovisuais.

Para além da força bruta no processamento, a série vem munida com funcionalidades avançadas de legendagem. O modelo é capaz de criar descrições ao nível de um guião de cinema, segmentar cenas de forma inteligente, inserir marcas de tempo precisas e até mapear detalhadamente as relações entre personagens com base no áudio fornecido. Para os programadores e curiosos que queiram explorar estas capacidades, os novos modelos já se encontram acessíveis através de interfaces de programação offline e em tempo real.

Nenhum comentário

Seja o primeiro!

Siga-nos

Alibaba lança Qwen3.5-Omni com capacidades que superam o Gemini em áudio

Processamento massivo e desempenho de topo

A rivalidade direta com o Gemini

Não perca nenhuma novidade!