LongCat-AudioDiT revoluciona o TTS com arquitetura end-to-end e leva a clonagem de voz a um novo nível

A geração de áudio por inteligência artificial está passando por uma transformação importante: estamos saindo de arquiteturas em cascata para modelos totalmente end-to-end. Esse avanço resolve um problema clássico dos sistemas tradicionais de TTS (text-to-speech), que dependem da representação intermediária em espectrograma Mel — algo que frequentemente causa perda de informação e acúmulo de erros.

LongCat-AudioDiT revoluciona o TTS com arquitetura end-to-end e leva a clonagem de voz a um novo nível

Nesse cenário, a equipe LongCat, da Meituan, acaba de lançar e open source o LongCat-AudioDiT, disponível em versões de 1B e 3.5B parâmetros. O modelo já está chamando atenção por redefinir o estado da arte em clonagem de voz zero-shot.


🚀 Uma nova arquitetura: sem espectrograma Mel

O grande diferencial do LongCat-AudioDiT é abandonar completamente o pipeline tradicional (previsão de características acústicas + vocoder). Em vez disso, ele adota uma arquitetura muito mais direta e eficiente:

  • Wav-VAE (Variational Autoencoder de forma de onda)
  • DiT (Diffusion Transformer)

Essa combinação permite modelar diretamente o áudio no espaço latente da forma de onda, reduzindo perdas e melhorando a qualidade final.

🔊 Wav-VAE: compressão extrema com alta fidelidade

O Wav-VAE utiliza uma arquitetura totalmente convolucional capaz de comprimir áudio de 24kHz em até 2000 vezes, reduzindo a taxa para apenas 11.7Hz.

Mesmo com essa compressão agressiva, o modelo mantém:

  • Estrutura temporal e espectral precisa
  • Qualidade sonora natural
  • Alta fidelidade perceptiva

Isso é possível graças a técnicas como:

  • Ramificações não paramétricas (shortcut connections)
  • Treinamento adversarial com múltiplos objetivos

🧠 DiT com reforço semântico

Outro ponto inovador está no uso do UMT5 como codificador de texto. O modelo combina:

  • Embeddings originais das palavras
  • Estados ocultos das camadas superiores

Essa fusão ajuda a recuperar detalhes fonéticos que normalmente se perdem em representações semânticas mais abstratas, melhorando significativamente a inteligibilidade da fala gerada.


⚙️ Melhorias na inferência: adeus, instabilidade de voz

Para garantir qualidade consistente, o modelo introduz duas melhorias importantes:

1. Mecanismo de dupla restrição

Corrige o problema clássico de inconsistência entre treino e inferência em modelos de TTS baseados em fluxo.

Resultado:

  • Eliminação do “desvio de timbre” (voice drift)
  • Maior estabilidade na voz gerada

2. APG (Adaptive Projection Guidance)

Substitui o tradicional CFG (Classifier-Free Guidance).

Benefícios:

  • Filtra apenas os sinais realmente úteis para guiar a geração
  • Evita saturação espectral
  • Produz áudio mais natural e equilibrado

📊 Desempenho impressionante

Nos benchmarks da série Seed, o LongCat-AudioDiT apresenta resultados de ponta:

  • Similaridade (SIM):
    • 0.818 no Seed-ZH
    • 0.797 no Seed-Hard

Superando modelos conhecidos como:

  • Seed-TTS

  • CosyVoice 3.5

  • MiniMax-Speech

  • Taxas de erro:

    • WER em inglês: 1.50%
    • CER em chinês (frases difíceis): 6.04%

🧩 Treinamento mais simples, resultados melhores

Um detalhe curioso: o modelo foi treinado em uma única etapa, usando apenas dados pré-processados via ASR (transcrição automática).

Mesmo assim, conseguiu superar modelos que utilizam pipelines complexos de múltiplas fases — o que mostra a eficiência da nova abordagem.


🌍 Open source disponível

Para quem quiser explorar ou usar o modelo, tudo já está disponível publicamente:


💡 Conclusão

O LongCat-AudioDiT marca uma virada importante na geração de áudio por IA. Ao eliminar intermediários e modelar diretamente a forma de onda, ele consegue:

  • Melhorar qualidade
  • Aumentar estabilidade
  • Simplificar o treinamento

Esse tipo de abordagem deve influenciar fortemente a próxima geração de sistemas de voz — desde assistentes virtuais até criação de conteúdo, games e metaverso.

Se essa tendência continuar, estamos cada vez mais próximos de vozes sintéticas indistinguíveis das humanas.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top