DeepSeek lança OCR2 com “fluxo causal visual” e eleva a leitura inteligente de documentos complexos

DeepSeek anunciou o lançamento do novo modelo de reconhecimento de documentos DeepSeek-OCR2. A atualização traz avanços importantes no design do codificador visual, com foco em resolver um problema comum dos modelos tradicionais: a falta de lógica ao lidar com documentos de layout complexo.

O grande destaque do DeepSeek-OCR2 é o codificador proprietário DeepEncoder V2. Diferente dos modelos visuais convencionais, que processam imagens seguindo uma grade fixa da esquerda para a direita e de cima para baixo, o novo modelo introduz o conceito de “fluxo causal visual”. Isso permite ajustar dinamicamente a ordem de processamento com base na semântica da imagem — ou seja, antes de reconhecer o texto, ele reorganiza o conteúdo visual de forma inteligente, aproximando a leitura da maneira como humanos interpretam tabelas, fórmulas e documentos complexos.

Na arquitetura geral, o modelo mantém uma estrutura eficiente de codificação e decodificação. Após passar pelo DeepEncoder V2, que realiza modelagem semântica e reorganização da ordem visual, a informação é enviada para o modelo de linguagem baseado em arquitetura MoE (Mixture of Experts). Segundo testes, no benchmark OmniDocBench v1.5, o DeepSeek-OCR2 atingiu 91,09%, um salto de 3,73% em relação à geração anterior. O desempenho em precisão da ordem de leitura também melhorou significativamente, com queda expressiva na distância de edição — sinal de uma reconstrução estrutural muito mais fiel ao conteúdo original.

Além disso, o novo modelo apresenta maior estabilidade em cenários reais. Em testes com processamento em lote de PDFs e logs online, houve redução clara na taxa de repetições. Isso indica que, mesmo mantendo baixo consumo de recursos, o DeepSeek-OCR2 entrega resultados mais consistentes, lógicos e de alta qualidade.

Pontos principais:

Ordenação semântica dinâmica:
O DeepSeek-OCR2 utiliza a tecnologia de “fluxo causal visual” para romper com a leitura rígida em grade, permitindo uma interpretação orientada pela semântica.

Salto de desempenho:
O novo modelo melhora 3,73% nos benchmarks, com grande avanço na precisão da ordem de leitura.

Arquitetura MoE eficiente:
Mantém o uso do MoE na etapa de decodificação, garantindo mais precisão e confiabilidade sem aumentar os custos computacionais.

Leave a Comment Cancel Reply