No dia 3 de abril, a equipe de tecnologia da Meituan anunciou oficialmente o lançamento do LongCat-Next, um novo modelo multimodal nativo que representa um avanço importante na forma como a inteligência artificial entende o mundo.

Diferente das abordagens tradicionais — que combinam modelos de linguagem com “plugins” para lidar com imagens e áudio — o LongCat-Next foi projetado desde o início para tratar texto, imagem e som de forma unificada. Isso significa que, pela primeira vez, a IA consegue “ver” e “ouvir” o mundo físico de maneira tão natural quanto processa palavras.
🔍 O que torna o LongCat-Next diferente?
O grande diferencial está na arquitetura chamada DiNA (Discrete Native Autoregressive), que resolve um dos maiores desafios da IA: integrar diferentes tipos de dados em um único sistema.
Principais inovações:
1. Unificação total dos dados
Texto, imagens e áudio são convertidos em um mesmo formato de “tokens discretos”. Isso permite que o modelo use os mesmos parâmetros e mecanismos para tudo — sem separar tarefas por tipo de mídia.
2. Entender e gerar são a mesma coisa
No LongCat-Next, compreender texto e gerar imagens fazem parte do mesmo processo matemático. Isso cria uma sinergia forte durante o treinamento, melhorando o desempenho geral.
3. Alta eficiência de compressão
Com o uso do tokenizador visual dNaViT, o modelo consegue lidar com imagens em qualquer resolução e reduzir o tamanho dos dados em até 28 vezes, sem perder detalhes importantes — inclusive em tarefas como leitura de documentos e análise de relatórios financeiros.
🚀 Desempenho que desafia o padrão
Os resultados mostram que essa abordagem não só funciona, como supera modelos especializados em várias áreas:
- Percepção detalhada: superou modelos como Qwen3-Omni e até soluções focadas em visão em testes com textos densos (OmniDocBench).
- Raciocínio visual: alcançou 83,1 pontos no MathVista, demonstrando forte capacidade lógica.
- Integração multimodal: mantém alto desempenho em linguagem (C-Eval: 86,80) enquanto suporta geração simultânea de texto e voz, com possibilidade de clonagem de voz.
Esses resultados contestam a ideia antiga de que transformar dados em formato discreto necessariamente causa perda de informação.
🌐 Um passo rumo à IA que entende o mundo real
Durante muito tempo, os modelos de IA foram centrados na linguagem. O LongCat-Next muda esse paradigma ao mostrar que informações do mundo físico também podem ser tratadas como linguagem.
Na prática, isso abre portas para sistemas mais inteligentes e intuitivos, capazes de:
- interpretar imagens complexas com mais precisão
- interagir melhor com ferramentas e ambientes digitais
- compreender contextos multimodais de forma natural
🔓 Código aberto e potencial para desenvolvedores
Outro ponto importante: tanto o modelo LongCat-Next quanto o tokenizador dNaViT foram disponibilizados como código aberto.
Isso significa que desenvolvedores ao redor do mundo poderão explorar essa tecnologia para criar aplicações mais avançadas — especialmente aquelas que precisam interagir com o mundo real, como:
- assistentes inteligentes
- sistemas de análise visual
- soluções industriais e automatizadas
💡 Conclusão
O LongCat-Next não é apenas mais um modelo — ele representa uma mudança de base na forma como a IA é construída.
Ao unificar diferentes tipos de dados em uma “linguagem comum”, ele aproxima a inteligência artificial de algo mais próximo da percepção humana.
E isso pode ser apenas o começo.