1. TugaTech » Software » Noticias de Software
  Login     Registar    |                      
Siga-nos

Qwen 3.5 Omni Plus

A gigante tecnológica chinesa Alibaba Cloud acaba de expandir o seu leque de ofertas com a introdução da série Qwen3.5-Omni, um novo modelo de linguagem de grande escala omnimodal. De acordo com os detalhes partilhados no blogue oficial da Qwen, esta nova aposta destaca-se por suportar nativamente a compreensão integrada de texto, imagem, áudio e conteúdo audiovisual, elevando a fasquia na competição dos modelos de IA. A linha abrange as variantes de instrução Plus, Flash e Light, introduzindo ainda o modelo específico Qwen3.5-Omni-Plus-Realtime.

Processamento massivo e desempenho de topo

A arquitetura destes novos modelos assenta num sistema híbrido que mistura especialistas para os seus componentes de pensamento e comunicação. Na prática, isto traduz-se numa capacidade impressionante de lidar com um contexto contínuo de 256 mil tokens. O modelo consegue analisar mais de 10 horas de áudio de forma ininterrupta ou processar mais de 400 segundos de vídeo em resolução 720p a um fotograma por segundo. Tudo isto resulta de um treino intensivo em extensas bases de dados multimodais, que incluíram mais de 100 milhões de horas de material audiovisual, garantindo uma perceção e geração de conteúdos bastante sólida em diversos formatos.

A rivalidade direta com o Gemini

No que toca à linguagem, a plataforma apresenta um reconhecimento de voz otimizado para 113 idiomas e dialetos, e consegue gerar fala em 36 línguas diferentes. Estas atualizações multilingues dão-lhe um alcance global considerável, mas o verdadeiro trunfo está no embate frente à concorrência. A versão Plus do Qwen3.5-Omni consegue mesmo superar as capacidades do Gemini na versão 3.1 Pro no que diz respeito a tarefas puramente de áudio, igualando o modelo da Google na compreensão de cenários audiovisuais.

Para além da força bruta no processamento, a série vem munida com funcionalidades avançadas de legendagem. O modelo é capaz de criar descrições ao nível de um guião de cinema, segmentar cenas de forma inteligente, inserir marcas de tempo precisas e até mapear detalhadamente as relações entre personagens com base no áudio fornecido. Para os programadores e curiosos que queiram explorar estas capacidades, os novos modelos já se encontram acessíveis através de interfaces de programação offline e em tempo real.

Foto do Autor

Aficionado por tecnologia desde o tempo dos sistemas a preto e branco

Ver perfil do usuário Enviar uma mensagem privada Enviar um email Facebook do autor Twitter do autor Skype do autor

conectado
Encontrou algum erro neste artigo?



Aplicações do TugaTechAplicações TugaTechDiscord do TugaTechDiscord do TugaTechRSS TugaTechRSS do TugaTechSpeedtest TugaTechSpeedtest TugatechHost TugaTechHost TugaTech