Hume AI lança TADA: novo modelo de geração de voz promete mais velocidade, menos erros e funcionamento até em celulares

A Hume AI anunciou recentemente o TADA (Text-Acoustic Dual Alignment), seu mais novo modelo de geração de voz por inteligência artificial. Trata-se de um sistema avançado de texto para fala (TTS) baseado em grandes modelos de linguagem (LLMs), que introduz uma arquitetura inovadora chamada alinhamento duplo entre texto e áudio.
Essa nova abordagem melhora significativamente a eficiência, confiabilidade e versatilidade na geração de voz sintética.
Uma solução para um problema comum em TTS
Um dos grandes desafios dos sistemas TTS baseados em LLM é o chamado “hallucination” de conteúdo, quando o modelo gera palavras ou trechos de áudio que não existem no texto original.
O TADA resolve esse problema utilizando um mecanismo que faz com que cada token de texto corresponda exatamente a um elemento acústico, criando uma sincronização 1:1 entre texto e som.
Nos testes realizados com mais de 1000 amostras, o modelo apresentou zero casos de alucinação de conteúdo, algo extremamente relevante para aplicações profissionais.
Muito mais rápido e eficiente
Outro destaque do TADA é o desempenho. Segundo os dados divulgados:
- A geração de áudio é mais de 5 vezes mais rápida do que outros sistemas TTS baseados em LLM.
- O consumo de recursos computacionais é muito menor.
Enquanto modelos tradicionais precisam de 12,5 a 75 quadros de processamento por segundo de áudio, o TADA utiliza apenas 2 a 3 quadros por segundo.
Isso significa que o modelo pode rodar localmente em dispositivos com baixo consumo, como:
- smartphones
- tablets
- dispositivos de borda (edge devices)
- aplicações embarcadas
Sem depender de servidores na nuvem.
Suporte multilíngue
O TADA também foi desenvolvido para funcionar com múltiplos idiomas, incluindo chinês e outras línguas globais.
A Hume AI disponibilizou duas versões principais do modelo:
- Modelo 1B – focado principalmente em inglês
- Modelo 3B multilíngue – baseado no Llama3, com suporte para diversos idiomas
O sistema possui uma janela de contexto de 2048 tokens, o que permite gerar aproximadamente 700 segundos de áudio contínuo de uma só vez.
Para comparação, modelos tradicionais geralmente conseguem gerar apenas cerca de 70 segundos de áudio dentro do mesmo limite de tokens.
Geração de voz com transcrição automática
Outro recurso inovador do TADA é a transcrição sincronizada.
Enquanto o modelo gera o áudio, ele também produz automaticamente o texto correspondente, eliminando a necessidade de rodar um sistema separado de reconhecimento de fala (ASR).
Isso permite aplicações como:
- legendas em tempo real
- assistentes de voz mais eficientes
- ferramentas de criação de conteúdo
- sistemas de atendimento automatizado
Tudo sem atraso adicional.
Qualidade de voz altamente competitiva
Em avaliações humanas de qualidade de áudio, o TADA alcançou o segundo lugar em naturalidade e similaridade de voz, superando diversos modelos com mais parâmetros e conjuntos de dados maiores.
Isso mostra que a arquitetura proposta pela Hume AI consegue entregar alta qualidade de voz mesmo com maior eficiência computacional.
Onde acessar o modelo
O TADA foi disponibilizado como open source, permitindo que desenvolvedores e pesquisadores experimentem e integrem o modelo em seus próprios projetos.
A coleção oficial pode ser acessada em:
https://huggingface.co/collections/HumeAI/tada
Com recursos como maior velocidade, baixo consumo de hardware, suporte multilíngue e transcrição simultânea, o TADA surge como uma tecnologia promissora para o futuro das interfaces de voz baseadas em inteligência artificial. 🚀