Luma lança Uni-1: IA de imagens com nova arquitetura que planeja e gera tudo em uma só etapa

A Luma Labs lançou no dia 23 de março o seu mais novo modelo de geração de imagens: o Uni-1. Trata-se do primeiro modelo público baseado na nova arquitetura chamada Unified Intelligence, e já está disponível para testes gratuitos no site oficial. Além disso, a empresa também divulgou sua precificação via API e anunciou que integrações empresariais serão liberadas gradualmente.

Uma mudança importante na arquitetura

O grande diferencial do Uni-1 está na sua abordagem técnica. Em vez de seguir o caminho mais comum dos modelos de difusão, ele utiliza um modelo autoregressivo do tipo Transformer (decoder-only).

Na prática, isso significa que texto e imagem são tratados como uma única sequência de tokens, permitindo que o modelo planeje e gere a imagem ao mesmo tempo, em uma única etapa.

Segundo Amit Jain, CEO da Luma (e ex-engenheiro da Apple que trabalhou no Vision Pro), os métodos tradicionais costumam dividir o processo em duas fases: primeiro o planejamento com um modelo de linguagem, depois a geração da imagem com difusão. Esse processo pode causar perda de informação — algo que o Uni-1 tenta eliminar.

Recursos avançados: mais controle e consistência

O Uni-1 traz funcionalidades interessantes para quem trabalha com criação visual:

Suporte a imagens de referência (uma ou várias)
Permite manter consistência de personagens, poses e composição.
Geração em múltiplos estilos (76 no total)
Inclui desde fotografia realista até estilos como anime, quadrinhos e arte tradicional japonesa.
Planejamento visual automático
Em demonstrações, o modelo consegue organizar layouts complexos, como infográficos, incluindo textos e medições (por exemplo, o comprimento da Golden Gate Bridge).

Outro ponto interessante é que o processo de “raciocínio visual” pode ser acompanhado em tempo real, dando mais transparência ao funcionamento do modelo.

Desempenho acima da média

De acordo com dados divulgados pela própria Luma Labs, o Uni-1 apresenta resultados competitivos:

RISEBench (benchmark de raciocínio):
- Uni-1: 0.51
- Google Nano Banana 2: 0.50
- GPT Image 1.5: 0.46
Raciocínio espacial: 0.58
Raciocínio lógico: 0.32 (aproximadamente o dobro do GPT Image)
ODinW-13 (detecção de objetos):
- 46.2 mAP (muito próximo do Gemini 3 Pro, com 46.3)
Preferência humana (ranking Elo):
- 1º lugar em geral, estilo e edição, e geração com referência
- 2º lugar em geração a partir de texto

Preço e custo por imagem

O modelo utiliza cobrança baseada em tokens:

Entrada de texto: $0.50 / milhão de tokens
Entrada de imagem: $1.20 / milhão
Saída de texto: $3.00 / milhão
Saída de imagem: $45.45 / milhão

Na prática, isso dá aproximadamente:

Imagem 2K (texto → imagem): ~$0.0909
Edição com 1 imagem de referência: ~$0.0933
Com 8 imagens de referência: ~$0.1101

Segundo a VentureBeat, em cenários corporativos com resolução 2K, o Uni-1 pode ser 10% a 30% mais barato do que alternativas como o Nano Banana 2.

Contexto: evolução da Luma Labs

A Luma Labs já vinha ganhando destaque com o Dream Machine, sua ferramenta de geração de vídeos (linha Ray3). No início de março, lançou também o Luma Agents, uma plataforma de agentes criativos baseada na mesma arquitetura.

O Uni-1 marca a primeira aplicação dessa tecnologia no campo de imagens estáticas — e a empresa já confirmou que versões para vídeo e áudio estão em desenvolvimento.

Recepção inicial

Poucas horas após o lançamento, o modelo já gerou grande repercussão, com postagens ultrapassando 2,3 milhões de visualizações na plataforma X (antigo Twitter).

Vale a pena testar?

Se você trabalha com design, criação de conteúdo, marketing ou produtos digitais, o Uni-1 parece ser uma ferramenta promissora — principalmente pela combinação de:

maior controle visual
consistência de personagens
capacidade de planejamento automático
custo competitivo

Você pode testar gratuitamente no site oficial: lumalabs.ai/uni-1

O lançamento do Uni-1 reforça uma tendência importante: a evolução dos modelos de IA não está apenas na qualidade visual, mas na capacidade de pensar, planejar e executar tarefas de forma integrada — algo que pode transformar completamente a forma como criamos conteúdo digital.