O novo modelo DeepSeek-OCR é impressionante, mas o mais interessante é a possibilidade de usar tokens visuais em um nível mais fundamental: os modelos podem realizar o raciocínio diretamente no espaço visual latente?
"Embora focado no OCR como uma prova de conceito, esse paradigma abre novas possibilidades para repensar como as modalidades de visão e linguagem podem ser combinadas sinergicamente para aumentar a eficiência computacional em processamento de texto em larga escala e sistemas de agentes."
Isso pode ter um enorme impacto no processamento de documentos para finanças, consultoria e áreas afins. Anteriormente, tabelas e gráficos eram um grande problema para os modelos lerem corretamente. Legenda: No campo de relatórios de pesquisa financeira, o modo de análise profunda do DeepSeek-OCR pode ser usado para obter resultados estruturados de gráficos em documentos. Os gráficos são uma forma crucial de representação de dados nos campos financeiro e científico, e a extração estruturada de gráficos é um recurso indispensável para futuros modelos de OCR.
7,23K