O novo modelo DeepSeek-OCR é impressionante, mas o mais interessante é a possibilidade de usar tokens visuais a um nível mais fundamental: os modelos podem realizar raciocínio diretamente no espaço latente visual?
"Embora focado em OCR como uma prova de conceito, este paradigma abre novas possibilidades para repensar como as modalidades de visão e linguagem podem ser combinadas sinergicamente para melhorar a eficiência computacional no processamento de texto em larga escala e sistemas de agentes."
Isto pode ter um grande impacto no processamento de documentos para finanças, consultoria e áreas relacionadas. Anteriormente, tabelas e gráficos eram um grande problema para os modelos lerem corretamente. Legenda: No campo dos relatórios de pesquisa financeira, o modo de análise profunda do DeepSeek-OCR pode ser utilizado para obter resultados estruturados de gráficos dentro de documentos. Gráficos são uma forma crucial de representação de dados nas áreas financeira e científica, e a extração estruturada de gráficos é uma capacidade indispensável para os futuros modelos de OCR.
7,22K