Nova geração de IA para música chega em 2026: conheça o SongGeneration2

O mercado de IA aplicada à música começou 2026 com uma novidade que já está chamando muita atenção no setor. No dia 9 de março, a Tencent, em parceria com o Laboratório de Interação Homem-Voz da Universidade de Tsinghua, anunciou oficialmente o SongGeneration2, um novo modelo fundamental para geração de música com inteligência artificial.
Segundo os pesquisadores, a nova tecnologia representa um salto significativo em qualidade e capacidade, chegando a competir diretamente com alguns dos modelos comerciais mais avançados do mercado.
Três avanços que deixam a música de IA mais natural
Um dos principais objetivos do SongGeneration2 foi resolver problemas comuns das músicas geradas por IA, que muitas vezes soam artificiais ou pouco naturais. O novo modelo traz melhorias importantes em três áreas principais:
🎵 Musicalidade muito mais avançada
Diferente de sistemas que apenas combinam melodias simples, o SongGeneration2 consegue trabalhar com arranjos complexos e múltiplas faixas. Isso permite criar músicas com profundidade espacial e estrutura mais profissional, semelhantes a produções humanas.
🗣️ Letras e pronúncia mais precisas
Problemas como pronúncia confusa, erros de fonema ou vozes “emboladas” eram comuns em músicas geradas por IA. O novo modelo reduz significativamente esse problema.
O índice de erro fonético (PER) é de apenas 8,55%, melhor que modelos comerciais como o Suno v5, que registra cerca de 12,4%.
🎛️ Controle criativo mais preciso
Com o SongGeneration2, usuários podem orientar a criação musical de forma muito mais detalhada.
O sistema responde bem tanto a descrições em texto quanto a exemplos de áudio, permitindo controlar estilo, emoção, ritmo e atmosfera da música.
Arquitetura inovadora: LLM + Difusão trabalhando juntos
Uma das grandes inovações do SongGeneration2 está em sua arquitetura híbrida, que combina modelos de linguagem (LLM) com modelos de difusão sonora.
Essa combinação divide o processo criativo em duas partes:
1️⃣ “Cérebro de composição” (LeLM)
O modelo de linguagem organiza toda a estrutura musical, planejando melodia, letra e interpretação vocal. Em outras palavras, ele decide como a música deve ser cantada.
2️⃣ Renderização de áudio com difusão
O modelo de difusão transforma essas instruções em áudio realista, gerando detalhes acústicos complexos e qualidade sonora mais refinada.
Além disso, o sistema usa uma técnica de representação em camadas e múltiplas faixas, equilibrando estabilidade da melodia com riqueza sonora.
Código aberto e acessível: até computadores comuns podem usar
Um ponto que surpreendeu a comunidade foi a estratégia de open source adotada pela Tencent.
A versão SongGeneration-v2-large, com 4 bilhões de parâmetros, já foi disponibilizada publicamente e suporta geração de música em vários idiomas, incluindo chinês e inglês.
O mais impressionante:
O modelo pode rodar em hardware com cerca de 22 GB de VRAM, algo possível em GPUs de consumo avançadas.
Isso abre espaço para criação musical local e privada, sem depender totalmente de serviços na nuvem.
Versão rápida gera músicas em menos de um minuto
Para facilitar o acesso inicial à tecnologia, os pesquisadores também lançaram no HuggingFace uma versão chamada SongGeneration-v2-Fast.
Essa versão reduz um pouco a qualidade final, mas permite gerar uma música completa em menos de um minuto, tornando o processo extremamente rápido para testes e experimentação.
O que isso significa para o futuro da música?
O desempenho do SongGeneration2 mostra que a IA musical está deixando de ser apenas uma curiosidade tecnológica para se tornar uma ferramenta com potencial real no mercado.
Com planos de lançar versões que funcionem com apenas 12 GB de VRAM, além de novos sistemas de avaliação automática, a tendência é que cada vez mais pessoas consigam criar músicas usando IA.
Se essa evolução continuar nesse ritmo, o futuro pode ser bem diferente:
qualquer pessoa com um computador poderá se tornar compositor.