Xiaomi 18 pode trazer botão físico para IA, chip de 2 nm e câmera periscópio mais potente

A Fish Audio anunciou oficialmente o lançamento do seu novo modelo de texto-para-fala (TTS) de última geração, chamado S2, marcando um avanço significativo na tecnologia de voz por IA de código aberto. A novidade promete elevar o nível de expressividade, controle emocional e naturalidade nas vozes geradas artificialmente.

Xiaomi 18 pode trazer botão físico para IA, chip de 2 nm e câmera periscópio mais potente

Uma nova geração de voz com inteligência emocional

O Fish Audio S2 foi projetado para permitir um controle muito mais detalhado sobre a forma como a voz é gerada. Um dos grandes diferenciais é a possibilidade de ajustar emoções, entonação e estilo de fala usando comandos em linguagem natural diretamente no texto.

Por exemplo, o usuário pode inserir tags como:

  • [laugh] para risadas
  • [whispers] para fala em sussurro
  • [super happy] para um tom extremamente alegre

Também é possível definir estilos mais específicos, como:

  • [professional broadcast tone] para um tom profissional de locução
  • [pitch up] para aumentar o tom da voz

Esses comandos podem ser aplicados em palavras específicas ou em trechos curtos, permitindo um nível de controle extremamente preciso sobre o resultado final. O objetivo é produzir vozes mais naturais, expressivas e próximas da fala humana real.

Principais destaques do Fish Audio S2

Código totalmente aberto

O projeto foi lançado de forma completamente open source. Isso inclui:

  • Pesos do modelo
  • Código de treinamento e fine-tuning
  • Motor de inferência em streaming baseado em SGLang

A versão mais avançada, chamada S2-Pro, conta com cerca de 4,4 bilhões de parâmetros, sendo considerada o modelo flagship da linha.

Latência extremamente baixa

Outro destaque é a velocidade. O modelo possui latência inferior a 150 ms, o que o torna ideal para aplicações em tempo real, como:

  • Assistentes virtuais
  • Chatbots com voz
  • Avatares digitais
  • Streamers e apresentadores virtuais

Suporte nativo a múltiplos falantes

O S2 também oferece suporte nativo a múltiplos locutores em uma única geração de áudio. Isso significa que o sistema consegue:

  • Alternar entre diferentes vozes em um diálogo
  • Simular conversas naturais
  • Permitir interrupções e mudanças de turno
  • Manter consistência de timbre e emoção

Tudo isso sem necessidade de processamento adicional.

Treinado em escala massiva

Segundo a Fish Audio, o modelo foi treinado com cerca de 10 milhões de horas de áudio, cobrindo quase 50 idiomas.

A arquitetura combina:

  • Aprendizado por reforço com alinhamento humano
  • Arquitetura dual autoregressiva

Essa combinação permite que o sistema alcance altos níveis de naturalidade e expressividade, superando muitos modelos atuais tanto de código aberto quanto proprietários em diversos benchmarks.

O futuro da voz sintética

Para a Fish Audio, o lançamento do S2 representa um passo importante na evolução da tecnologia de voz baseada em IA. A empresa resume essa visão com a frase:

“A verdadeira liberdade da linguagem começa agora.”

A ideia é sair de sistemas que apenas “leem textos” para um novo estágio de vozes digitais com emoção, personalidade e contexto, abrindo caminho para aplicações cada vez mais realistas em comunicação, entretenimento e produtividade.

Links do projeto

GitHub:
https://github.com/fishaudio/fish-speech/

Hugging Face:
https://huggingface.co/fishaudio/s2-pro/

Com recursos avançados de controle emocional, baixa latência e suporte a múltiplos locutores, o Fish Audio S2 tem potencial para se tornar uma das tecnologias mais importantes no ecossistema de voz sintética open source nos próximos anos.

Leave a Comment

Your email address will not be published. Required fields are marked *

Scroll to Top