Alibaba Tongyi Labs lança modelo open source para dublagem automática em vídeos e animações

No dia 16 de março, o laboratório Alibaba Tongyi anunciou oficialmente o lançamento e a abertura do código de um novo modelo multimodal voltado para dublagem automática de vídeos e produções audiovisuais: o Fun-CineForge. A tecnologia foi criada para resolver alguns dos principais desafios que ainda limitam o uso de IA na produção de áudio para filmes, animações e conteúdos digitais.
Entre os problemas mais comuns estão a falta de sincronização entre fala e movimento labial, expressões emocionais pouco naturais e inconsistência na voz entre diferentes personagens. O Fun-CineForge foi projetado justamente para superar essas limitações e oferecer um nível de qualidade próximo ao de produções profissionais.
Um novo conceito: a “modalidade temporal”
Um dos grandes diferenciais do Fun-CineForge é a introdução do conceito de “modalidade temporal”.
Enquanto muitos modelos tradicionais analisam apenas texto ou imagem, o novo sistema também considera informações de tempo com precisão de milissegundos. Isso permite que a voz gerada seja posicionada exatamente no momento correto dentro do vídeo.
Na prática, isso significa que o modelo consegue manter sincronização precisa entre áudio e imagem, mesmo em situações complexas como:
- personagens parcialmente ocultos na cena
- trocas rápidas de câmera
- rostos desfocados ou fora de quadro
- cenas com vários personagens interagindo
Esse controle temporal faz com que o resultado final pareça muito mais natural e profissional.
Dataset inteligente reduz custo de treinamento
Outro destaque do projeto é o método de criação do dataset CineDub, desenvolvido para treinar modelos de dublagem com alta qualidade.
A equipe utilizou técnicas de cadeia de raciocínio (Chain-of-Thought) em grandes modelos para transformar automaticamente materiais audiovisuais brutos em dados estruturados. Isso reduz drasticamente o trabalho manual necessário na preparação de dados.
Os resultados apresentados mostram números bastante competitivos:
- Taxa de erro de texto (chinês e inglês): cerca de 1%
- Erro de separação de falantes: apenas 1,20%
Essa precisão ajuda a construir uma base de treinamento robusta para sistemas de IA voltados à produção audiovisual.
Suporte para múltiplos personagens
Atualmente, o Fun-CineForge já suporta inferência em clipes de até 30 segundos.
O modelo apresenta ótimo desempenho em diferentes cenários, incluindo:
- monólogos
- diálogos entre dois personagens
- conversas com múltiplos participantes
Essa capacidade é especialmente importante para aplicações em animação, cinema e pós-produção de vídeos, onde interações entre personagens são comuns.
IA avançando para o setor audiovisual
O lançamento do Fun-CineForge mostra como a inteligência artificial está evoluindo além de aplicações tradicionais — como chatbots e assistentes virtuais — e passando a atuar em áreas com exigências muito mais altas de qualidade.
Com tecnologias como essa, é possível imaginar um futuro próximo em que dublagem automática, localização de conteúdo e produção de animações sejam realizados com muito mais rapidez e custo reduzido.
Onde acessar o projeto
O modelo já está disponível publicamente nas principais plataformas de IA open source:
GitHub
https://github.com/FunAudioLLM/FunCineForge
HuggingFace
https://huggingface.co/FunAudioLLM/Fun-CineForge
ModelScope
https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/
Com iniciativas como essa, o desenvolvimento de ferramentas de IA voltadas à indústria criativa ganha um novo impulso, abrindo caminho para produções audiovisuais mais rápidas, acessíveis e tecnologicamente avançadas.