Qwen3.5-Omni: a IA multimodal que entende áudio, vídeo e voz em tempo real e redefine a interação com o mundo físico

O laboratório Tongyi anunciou oficialmente o lançamento do novo modelo multimodal Qwen3.5-Omni — e o avanço é significativo. Em vez de ser apenas um “assistente dentro da tela”, a IA começa a dar passos reais rumo a se tornar um agente capaz de entender o mundo físico.

Um salto em capacidades: multimodalidade total e 215 recordes

O Qwen3.5-Omni foi desenvolvido com uma arquitetura nativa “full multimodal”, capaz de processar texto, imagens, áudio e vídeo de forma integrada.

Nos principais testes envolvendo análise de áudio e vídeo, raciocínio, conversação e tradução, o modelo alcançou 215 resultados de nível SOTA (estado da arte). Um destaque importante é o desempenho em compreensão de áudio: ele supera completamente o Gemini-3.1 Pro. Já em visão e linguagem, mantém o mesmo nível de excelência dos modelos Qwen3.5 de porte equivalente.

Por dentro da tecnologia: arquitetura Hybrid-Attention MoE

O modelo mantém a lógica de divisão entre dois núcleos — mas com melhorias profundas:

Thinker (núcleo de compreensão)
Agora utiliza uma arquitetura Hybrid-Attention MoE, com suporte a contextos de até 256K tokens. Na prática, isso permite analisar até 10 horas de áudio ou 1 hora de vídeo. Com a tecnologia TMRoPE, o modelo consegue capturar detalhes finos ao longo de sequências longas com alta precisão.

Talker (núcleo de geração)
Incorpora a nova tecnologia ARIA e codificação RVQ, substituindo processos mais pesados como o DiT. Isso resolve problemas comuns em síntese de voz, como omissão de palavras ou leitura incorreta de números — além de permitir controle em tempo real da fala.

Aplicações reais: da programação ao clone de voz

Os avanços do Qwen3.5-Omni já se traduzem em usos práticos bastante impressionantes:

Vibe Coding espontâneo
Mesmo sem treinamento específico, o modelo consegue gerar código com base em conteúdo visual — por exemplo, criar scripts em Python ou protótipos front-end a partir de vídeos.

Interação em tempo real mais humana
Ele entende interrupções naturais: diferencia um ruído (como uma tosse) de uma tentativa real de fala. Também permite ajustar o tom de voz com comandos como “fale de forma mais alegre” ou controlar o volume dinamicamente.

Análise detalhada de vídeos
Gera descrições estruturadas com marcação de tempo, identificando ações, mudanças de trilha sonora e cortes de cena com alta precisão.

Clonagem de voz personalizada
Com apenas um pequeno áudio, o usuário pode criar um “avatar de voz” altamente realista, compatível com 113 idiomas.

Disponibilidade

O Qwen3.5-Omni já está disponível na plataforma Alibaba Cloud Bailian, com três versões: Plus, Flash e Light. Também foram liberadas APIs para interação em tempo real (Realtime) e demos na comunidade ModelScope.

Esse lançamento reforça uma tendência clara: a IA está deixando de ser apenas uma ferramenta digital e começando a atuar como um sistema que entende e interage com o mundo de forma cada vez mais natural.

Um salto em capacidades: multimodalidade total e 215 recordes

Por dentro da tecnologia: arquitetura Hybrid-Attention MoE

Aplicações reais: da programação ao clone de voz

Disponibilidade

Leave a Comment Cancel Reply