Il nuovo modello DeepSeek-OCR è impressionante, ma la cosa più interessante è la possibilità di utilizzare i token visivi a un livello più fondamentale: i modelli possono eseguire ragionamenti direttamente nello spazio latente visivo?
"Sebbene focalizzato sull'OCR come prova di concetto, questo paradigma apre nuove possibilità per ripensare a come le modalità visive e linguistiche possano essere combinate in modo sinergico per migliorare l'efficienza computazionale nell'elaborazione di testi su larga scala e nei sistemi agenti."
Questo potrebbe avere un enorme impatto nell'elaborazione dei documenti per la finanza, la consulenza e i settori correlati. In precedenza, tabelle e grafici rappresentavano un grande problema per i modelli per essere letti correttamente. Didascalia: Nel campo dei rapporti di ricerca finanziaria, la modalità di analisi approfondita di DeepSeek-OCR può essere utilizzata per ottenere risultati strutturati dei grafici all'interno dei documenti. I grafici sono una forma cruciale di rappresentazione dei dati nella finanza e nei campi scientifici, e l'estrazione strutturata dei grafici è una capacità indispensabile per i futuri modelli OCR.
7,21K