Xiaomi 18 pode trazer botão físico para IA, chip de 2 nm e câmera periscópio mais potente

A Fish Audio anunciou oficialmente o lançamento do seu novo modelo de texto-para-fala (TTS) de última geração, chamado S2, marcando um avanço significativo na tecnologia de voz por IA de código aberto. A novidade promete elevar o nível de expressividade, controle emocional e naturalidade nas vozes geradas artificialmente.

Uma nova geração de voz com inteligência emocional

O Fish Audio S2 foi projetado para permitir um controle muito mais detalhado sobre a forma como a voz é gerada. Um dos grandes diferenciais é a possibilidade de ajustar emoções, entonação e estilo de fala usando comandos em linguagem natural diretamente no texto.

Por exemplo, o usuário pode inserir tags como:

[laugh] para risadas
[whispers] para fala em sussurro
[super happy] para um tom extremamente alegre

Também é possível definir estilos mais específicos, como:

[professional broadcast tone] para um tom profissional de locução
[pitch up] para aumentar o tom da voz

Esses comandos podem ser aplicados em palavras específicas ou em trechos curtos, permitindo um nível de controle extremamente preciso sobre o resultado final. O objetivo é produzir vozes mais naturais, expressivas e próximas da fala humana real.

Principais destaques do Fish Audio S2

Código totalmente aberto

O projeto foi lançado de forma completamente open source. Isso inclui:

Pesos do modelo
Código de treinamento e fine-tuning
Motor de inferência em streaming baseado em SGLang

A versão mais avançada, chamada S2-Pro, conta com cerca de 4,4 bilhões de parâmetros, sendo considerada o modelo flagship da linha.

Latência extremamente baixa

Outro destaque é a velocidade. O modelo possui latência inferior a 150 ms, o que o torna ideal para aplicações em tempo real, como:

Assistentes virtuais
Chatbots com voz
Avatares digitais
Streamers e apresentadores virtuais

Suporte nativo a múltiplos falantes

O S2 também oferece suporte nativo a múltiplos locutores em uma única geração de áudio. Isso significa que o sistema consegue:

Alternar entre diferentes vozes em um diálogo
Simular conversas naturais
Permitir interrupções e mudanças de turno
Manter consistência de timbre e emoção

Tudo isso sem necessidade de processamento adicional.

Treinado em escala massiva

Segundo a Fish Audio, o modelo foi treinado com cerca de 10 milhões de horas de áudio, cobrindo quase 50 idiomas.

A arquitetura combina:

Aprendizado por reforço com alinhamento humano
Arquitetura dual autoregressiva

Essa combinação permite que o sistema alcance altos níveis de naturalidade e expressividade, superando muitos modelos atuais tanto de código aberto quanto proprietários em diversos benchmarks.

O futuro da voz sintética

Para a Fish Audio, o lançamento do S2 representa um passo importante na evolução da tecnologia de voz baseada em IA. A empresa resume essa visão com a frase:

“A verdadeira liberdade da linguagem começa agora.”

A ideia é sair de sistemas que apenas “leem textos” para um novo estágio de vozes digitais com emoção, personalidade e contexto, abrindo caminho para aplicações cada vez mais realistas em comunicação, entretenimento e produtividade.

Links do projeto

GitHub:
https://github.com/fishaudio/fish-speech/

Hugging Face:
https://huggingface.co/fishaudio/s2-pro/

Com recursos avançados de controle emocional, baixa latência e suporte a múltiplos locutores, o Fish Audio S2 tem potencial para se tornar uma das tecnologias mais importantes no ecossistema de voz sintética open source nos próximos anos.