A Fish Audio anunciou oficialmente o lançamento do seu novo modelo de texto-para-fala (TTS) de última geração, chamado S2, marcando um avanço significativo na tecnologia de voz por IA de código aberto. A novidade promete elevar o nível de expressividade, controle emocional e naturalidade nas vozes geradas artificialmente.

Uma nova geração de voz com inteligência emocional
O Fish Audio S2 foi projetado para permitir um controle muito mais detalhado sobre a forma como a voz é gerada. Um dos grandes diferenciais é a possibilidade de ajustar emoções, entonação e estilo de fala usando comandos em linguagem natural diretamente no texto.
Por exemplo, o usuário pode inserir tags como:
[laugh]para risadas[whispers]para fala em sussurro[super happy]para um tom extremamente alegre
Também é possível definir estilos mais específicos, como:
[professional broadcast tone]para um tom profissional de locução[pitch up]para aumentar o tom da voz
Esses comandos podem ser aplicados em palavras específicas ou em trechos curtos, permitindo um nível de controle extremamente preciso sobre o resultado final. O objetivo é produzir vozes mais naturais, expressivas e próximas da fala humana real.
Principais destaques do Fish Audio S2
Código totalmente aberto
O projeto foi lançado de forma completamente open source. Isso inclui:
- Pesos do modelo
- Código de treinamento e fine-tuning
- Motor de inferência em streaming baseado em SGLang
A versão mais avançada, chamada S2-Pro, conta com cerca de 4,4 bilhões de parâmetros, sendo considerada o modelo flagship da linha.
Latência extremamente baixa
Outro destaque é a velocidade. O modelo possui latência inferior a 150 ms, o que o torna ideal para aplicações em tempo real, como:
- Assistentes virtuais
- Chatbots com voz
- Avatares digitais
- Streamers e apresentadores virtuais
Suporte nativo a múltiplos falantes
O S2 também oferece suporte nativo a múltiplos locutores em uma única geração de áudio. Isso significa que o sistema consegue:
- Alternar entre diferentes vozes em um diálogo
- Simular conversas naturais
- Permitir interrupções e mudanças de turno
- Manter consistência de timbre e emoção
Tudo isso sem necessidade de processamento adicional.
Treinado em escala massiva
Segundo a Fish Audio, o modelo foi treinado com cerca de 10 milhões de horas de áudio, cobrindo quase 50 idiomas.
A arquitetura combina:
- Aprendizado por reforço com alinhamento humano
- Arquitetura dual autoregressiva
Essa combinação permite que o sistema alcance altos níveis de naturalidade e expressividade, superando muitos modelos atuais tanto de código aberto quanto proprietários em diversos benchmarks.
O futuro da voz sintética
Para a Fish Audio, o lançamento do S2 representa um passo importante na evolução da tecnologia de voz baseada em IA. A empresa resume essa visão com a frase:
“A verdadeira liberdade da linguagem começa agora.”
A ideia é sair de sistemas que apenas “leem textos” para um novo estágio de vozes digitais com emoção, personalidade e contexto, abrindo caminho para aplicações cada vez mais realistas em comunicação, entretenimento e produtividade.
Links do projeto
GitHub:
https://github.com/fishaudio/fish-speech/
Hugging Face:
https://huggingface.co/fishaudio/s2-pro/
Com recursos avançados de controle emocional, baixa latência e suporte a múltiplos locutores, o Fish Audio S2 tem potencial para se tornar uma das tecnologias mais importantes no ecossistema de voz sintética open source nos próximos anos.