IBM lança Granite 4.0-1B Speech: modelo de voz compacto e open source que leva ASR e tradução para edge computing

IBM lança Granite 4.0-1B Speech: modelo de voz leve e poderoso para edge computing

A IBM anunciou recentemente o Granite 4.0-1B Speech, um novo modelo compacto de linguagem de voz desenvolvido especialmente para deploy em edge computing e ambientes corporativos. O objetivo é oferecer reconhecimento automático de fala (ASR) e tradução automática de voz (AST) com alta eficiência, mesmo em dispositivos com recursos limitados.

Modelo menor, mas muito mais eficiente

Comparado à versão anterior, o Granite 4.0-1B Speech possui apenas metade do número de parâmetros, mas ainda assim alcança ganhos significativos de desempenho. Isso significa que o modelo consegue entregar resultados mais precisos enquanto reduz uso de memória, latência de inferência e custos computacionais.

Entre as melhorias mais importantes estão:

Suporte a ASR em japonês
Função de keyword biasing (priorização de palavras-chave)
Maior precisão na transcrição em inglês
Otimização para execução em ambientes com recursos limitados, como dispositivos móveis e edge devices

Arquitetura inovadora em duas etapas

Um dos destaques do Granite 4.0-1B Speech é sua arquitetura em duas etapas. O processo funciona da seguinte forma:

Conversão de áudio em texto
Processamento e raciocínio com um modelo Granite de linguagem

Essa abordagem modular permite que desenvolvedores personalizem o fluxo de processamento conforme suas necessidades, tornando o sistema mais flexível para diferentes aplicações.

Suporte multilíngue

O modelo já oferece suporte a tradução entre diversos idiomas, incluindo:

Inglês
Francês
Alemão
Espanhol
Português
Japonês

Além disso, também é capaz de traduzir do inglês para o chinês (mandarim).

Desempenho de destaque

Nos testes de benchmark, o Granite 4.0-1B Speech apresentou um desempenho impressionante. No ranking OpenASR, o modelo alcançou o primeiro lugar, com uma taxa média de erro de palavras (WER) de apenas 5,52%.

Esse resultado demonstra que, mesmo sendo um modelo compacto, ele consegue competir com soluções muito maiores.

Open source para a comunidade

A IBM decidiu liberar o modelo como código aberto sob a licença Apache 2.0, permitindo que desenvolvedores utilizem e adaptem a tecnologia livremente.

O Granite 4.0-1B Speech pode ser executado localmente utilizando frameworks populares como:

Transformers
vLLM

Isso abre novas possibilidades para aplicações de IA em dispositivos móveis, sistemas embarcados e soluções de edge computing.

Acesso ao projeto

Os desenvolvedores interessados podem acessar o projeto no Hugging Face:

https://huggingface.co/ibm-granite/granite-4.0-1b-speech

Com seu design eficiente, suporte multilíngue e excelente desempenho, o Granite 4.0-1B Speech representa um passo importante para levar tecnologia avançada de voz para ambientes com recursos limitados, ampliando as possibilidades da IA em aplicações do mundo real.