Google lança Gemini Embedding2: um novo passo na busca e compreensão de dados multimodais

O Google anunciou recentemente o Gemini Embedding2, um modelo de embeddings multimodais nativo que promete simplificar a forma como sistemas de inteligência artificial processam diferentes tipos de conteúdo. A novidade permite mapear texto, imagens, vídeos, áudio e documentos PDF em um mesmo espaço vetorial semântico, tornando possível comparar e analisar conteúdos de diferentes formatos de forma direta.
Na prática, isso significa que um sistema de IA pode entender a relação entre diferentes mídias — por exemplo, comparar um vídeo com um texto ou encontrar imagens relacionadas a um documento — sem precisar usar vários modelos diferentes ou etapas extras de processamento.
Evolução dos embeddings do Google
Essa nova versão representa um avanço importante na estratégia do Google para embeddings. Em julho de 2025, a empresa havia lançado o gemini-embedding-001, um modelo focado em texto que suporta mais de 100 idiomas e alcançou destaque no ranking multilíngue MTEB.
Agora, com o Gemini Embedding2, o objetivo é ir além do texto e criar um sistema realmente multimodal, capaz de entender diferentes tipos de conteúdo dentro de uma única estrutura semântica.
Isso abre novas possibilidades para aplicações como:
- Busca semântica mais inteligente
- RAG (Retrieval-Augmented Generation)
- Análise de sentimentos
- Classificação e agrupamento de dados
- Sistemas avançados de recomendação
Suporte ampliado para diferentes tipos de entrada
O novo modelo traz melhorias significativas na capacidade de processamento de dados.
Entre os principais limites suportados estão:
- Texto: até 8192 tokens, quatro vezes mais que o limite anterior de 2048
- Imagens: até 6 arquivos PNG ou JPEG por requisição
- Vídeo: até 120 segundos de duração
- PDF: até 6 páginas por documento
- Áudio: processamento nativo, sem necessidade de converter primeiro para texto
O suporte direto a áudio é particularmente relevante, pois evita perdas de informação que podem ocorrer durante a transcrição automática.
Entrada multimodal combinada
Outro destaque do Gemini Embedding2 é o suporte a entradas intercaladas (interleaved inputs).
Isso permite que desenvolvedores enviem vários tipos de mídia no mesmo pedido, como:
- imagem + descrição em texto
- vídeo + legendas
- áudio + contexto textual
Essa abordagem ajuda o modelo a entender melhor as relações entre diferentes formatos de informação, algo essencial para aplicações de IA mais avançadas.
Arquitetura com aprendizado Matryoshka
Em termos de arquitetura, o modelo utiliza a técnica de Matryoshka Representation Learning (MRL).
Essa abordagem organiza as representações vetoriais em camadas hierárquicas, permitindo ajustar o tamanho dos embeddings de acordo com a necessidade do sistema.
As dimensões disponíveis incluem:
- 3072 (padrão)
- 1536
- 768
Com isso, empresas podem equilibrar qualidade de busca e custo de armazenamento, dependendo do tipo de aplicação.
Resultados de benchmark
Segundo dados divulgados pelo Google, o Gemini Embedding2 apresenta desempenho superior em vários testes multimodais.
Alguns resultados incluem:
-
Busca texto → vídeo:
- Gemini Embedding2: 68,8
- Amazon Nova2 Multimodal: 60,3
- Voyage Multimodal 3.5: 55,2
-
Comparação texto → imagem:
- Gemini Embedding2: 93,4
- Amazon Nova2 Multimodal: 84,0
Esses números indicam avanços significativos na capacidade de compreender e relacionar diferentes tipos de mídia.
Integração com ferramentas populares
O modelo já está disponível para desenvolvedores através de:
- Gemini API
- Vertex AI
Além disso, ele pode ser integrado com diversos frameworks e bancos de dados vetoriais populares, incluindo:
- LangChain
- LlamaIndex
- Haystack
- Weaviate
- Qdrant
- ChromaDB
- Vector Search
O Google também disponibilizou notebooks interativos no Colab e demonstrações de busca semântica multimodal, facilitando testes e experimentação por parte da comunidade de desenvolvedores.
A corrida pelos embeddings multimodais
O lançamento acontece em um momento de forte competição nesse mercado.
Em fevereiro deste ano, o mecanismo de busca de IA Perplexity lançou os modelos open source pplx-embed-v1 e pplx-embed-context-v1, distribuídos sob licença MIT.
Embora esses modelos suportem apenas texto, eles apresentaram desempenho competitivo no benchmark MTEB, chegando a superar o gemini-embedding-001 em alguns cenários e oferecendo maior eficiência de memória.
O futuro da infraestrutura de IA
Com o crescimento de aplicações baseadas em IA generativa, os modelos de embedding estão se tornando uma peça central da infraestrutura de dados.
A tendência agora é clara: sair de representações focadas apenas em texto e avançar para modelos capazes de compreender múltiplos formatos de conteúdo simultaneamente.
Nesse cenário, o Gemini Embedding2 representa mais um passo importante na evolução das ferramentas que tornam possível a busca e análise inteligente de informações em escala multimodal.