El nuevo modelo DeepSeek-OCR es impresionante, pero lo más interesante es la posibilidad de usar tokens visuales a un nivel más fundamental: ¿Pueden los modelos realizar razonamiento directamente en el espacio visual latente?
"Aunque se centra en OCR como prueba de concepto, este paradigma abre nuevas posibilidades para repensar cómo las modalidades de visión y lenguaje se pueden combinar sinérgicamente para mejorar la eficiencia computacional en el procesamiento de texto a gran escala y los sistemas de agentes".
Esto puede tener un gran impacto en el procesamiento de documentos para finanzas, consultoría y campos relacionados. Anteriormente, las tablas y los gráficos eran un gran problema para que los modelos leyeran correctamente. Leyenda: En el campo de los informes de investigación financiera, el modo de análisis profundo de DeepSeek-OCR se puede utilizar para obtener resultados estructurados de gráficos dentro de los documentos. Los gráficos son una forma crucial de representación de datos en los campos financiero y científico, y la extracción estructurada de gráficos es una capacidad indispensable para futuros modelos de OCR.
7.21K