Alibaba lança Qwen3.5-Omni, IA multimodal que revoluciona a interação e produtividade com áudio, vídeo e texto

Aqui está uma versão do artigo adaptada para o público brasileiro, em português do Brasil, com estilo leve e de fácil leitura:

Alibaba lança Qwen3.5-Omni, IA multimodal que revoluciona a interação e produtividade com áudio, vídeo e texto

Qwen3.5-Omni: O novo gigante multimodal da Alibaba que transforma a interação com IA

No dia 30 de março, a Alibaba lançou oficialmente o Qwen3.5-Omni, sua nova geração de modelo multimodal. Esse modelo é capaz de processar texto, imagens, vídeos e áudio de forma totalmente integrada, marcando um avanço impressionante para a tecnologia nacional no campo da interação audiovisual.

Poder total: 215 tarefas dominadas, superando o Gemini

O Qwen3.5-Omni não é apenas mais um modelo de linguagem – ele já se mostrou líder em desempenho:

  • SOTA em 215 testes: em tarefas de compreensão e interação com áudio e vídeo, o modelo alcançou o melhor desempenho de todos os tempos.
  • Desempenho superior ao Gemini: em benchmarks como DailyOmni e QualcommInteractive, superou significativamente o Google Gemini-3.1Pro.
  • Alta resistência a ruídos: em testes WenetSpeech, manteve precisão de reconhecimento altíssima mesmo em ambientes barulhentos.

Revolução na interação: 113 idiomas e “programação por voz”

O Qwen3.5-Omni também entende linguagens e códigos como nunca antes:

  • Suporte a 113 idiomas e dialetos, incluindo línguas raras como Maori e dialetos chineses regionais.
  • Vibe Coding: basta apontar a câmera para um esboço e descrever verbalmente o que deseja. O modelo gera automaticamente protótipos de interfaces complexas, possibilitando um verdadeiro “o que você fala, ele cria”.

Produtividade sem limites: análise de longos conteúdos

Profissionais de conteúdo também vão se beneficiar:

  • Análise detalhada de vídeos: o modelo consegue identificar protagonistas, relações entre personagens e variações emocionais.
  • Áudio de longa duração: suporta entradas de mais de 10 horas, criando automaticamente cortes, capítulos e marcações de tempo, aumentando muito a eficiência na criação de conteúdo.

Custo acessível e ampla disponibilidade

A plataforma Alibaba Cloud Bailian já disponibilizou três tipos de API: Plus, Flash e Light, oferecendo opções de custo-benefício:

  • Extremamente barato: menos de R$0,80 por milhão de tokens, cerca de 1/10 do preço do Gemini-3.1Pro.
  • Líder de mercado: já atende mais de 1 milhão de clientes e domina o mercado de chamadas de modelos corporativos na China.

Conclusão: da compreensão de textos à percepção do mundo

O lançamento do Qwen3.5-Omni representa mais do que tecnologia de ponta. Ele mostra que a IA está saindo da tela e entrando no mundo real, capaz de ouvir dialetos, interpretar esboços e entender emoções. Para empresas e criadores de conteúdo, isso significa ter uma ferramenta de produtividade superpoderosa ao alcance das mãos, com suporte completo via internet.


Se você quiser, posso criar uma versão ainda mais leve, estilo blog, com tópicos curtos e linguagem bem direta para leitores brasileiros, que facilita ainda mais a leitura rápida. Quer que eu faça isso?

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top