Meituan lança LongCat-Next: modelo multimodal que unifica texto, imagem e áudio e redefine a inteligência artificial

No dia 3 de abril, a equipe de tecnologia da Meituan anunciou oficialmente o lançamento do LongCat-Next, um novo modelo multimodal nativo que representa um avanço importante na forma como a inteligência artificial entende o mundo.

Diferente das abordagens tradicionais — que combinam modelos de linguagem com “plugins” para lidar com imagens e áudio — o LongCat-Next foi projetado desde o início para tratar texto, imagem e som de forma unificada. Isso significa que, pela primeira vez, a IA consegue “ver” e “ouvir” o mundo físico de maneira tão natural quanto processa palavras.

🔍 O que torna o LongCat-Next diferente?

O grande diferencial está na arquitetura chamada DiNA (Discrete Native Autoregressive), que resolve um dos maiores desafios da IA: integrar diferentes tipos de dados em um único sistema.

Principais inovações:

1. Unificação total dos dados
Texto, imagens e áudio são convertidos em um mesmo formato de “tokens discretos”. Isso permite que o modelo use os mesmos parâmetros e mecanismos para tudo — sem separar tarefas por tipo de mídia.

2. Entender e gerar são a mesma coisa
No LongCat-Next, compreender texto e gerar imagens fazem parte do mesmo processo matemático. Isso cria uma sinergia forte durante o treinamento, melhorando o desempenho geral.

3. Alta eficiência de compressão
Com o uso do tokenizador visual dNaViT, o modelo consegue lidar com imagens em qualquer resolução e reduzir o tamanho dos dados em até 28 vezes, sem perder detalhes importantes — inclusive em tarefas como leitura de documentos e análise de relatórios financeiros.

🚀 Desempenho que desafia o padrão

Os resultados mostram que essa abordagem não só funciona, como supera modelos especializados em várias áreas:

Percepção detalhada: superou modelos como Qwen3-Omni e até soluções focadas em visão em testes com textos densos (OmniDocBench).
Raciocínio visual: alcançou 83,1 pontos no MathVista, demonstrando forte capacidade lógica.
Integração multimodal: mantém alto desempenho em linguagem (C-Eval: 86,80) enquanto suporta geração simultânea de texto e voz, com possibilidade de clonagem de voz.

Esses resultados contestam a ideia antiga de que transformar dados em formato discreto necessariamente causa perda de informação.

🌐 Um passo rumo à IA que entende o mundo real

Durante muito tempo, os modelos de IA foram centrados na linguagem. O LongCat-Next muda esse paradigma ao mostrar que informações do mundo físico também podem ser tratadas como linguagem.

Na prática, isso abre portas para sistemas mais inteligentes e intuitivos, capazes de:

interpretar imagens complexas com mais precisão
interagir melhor com ferramentas e ambientes digitais
compreender contextos multimodais de forma natural

🔓 Código aberto e potencial para desenvolvedores

Outro ponto importante: tanto o modelo LongCat-Next quanto o tokenizador dNaViT foram disponibilizados como código aberto.

Isso significa que desenvolvedores ao redor do mundo poderão explorar essa tecnologia para criar aplicações mais avançadas — especialmente aquelas que precisam interagir com o mundo real, como:

assistentes inteligentes
sistemas de análise visual
soluções industriais e automatizadas

💡 Conclusão

O LongCat-Next não é apenas mais um modelo — ele representa uma mudança de base na forma como a IA é construída.

Ao unificar diferentes tipos de dados em uma “linguagem comum”, ele aproxima a inteligência artificial de algo mais próximo da percepção humana.

E isso pode ser apenas o começo.