Noul model DeepSeek-OCR este impresionant, dar cel mai interesant este posibilitatea de a utiliza token-uri vizuale la un nivel mai fundamental: pot modelele să efectueze raționament direct în spațiul vizual latent?
"Deși se concentrează pe OCR ca dovadă a conceptului, această paradigmă deschide noi posibilități pentru regândirea modului în care modalitățile de viziune și limbaj pot fi combinate sinergic pentru a spori eficiența computațională în procesarea textului la scară largă și sistemele de agenți."
Acest lucru poate avea un impact uriaș în procesarea documentelor pentru finanțe, consultanță și domenii conexe. Anterior, tabelele și diagramele erau o mare problemă pentru modele de citit corect. Legendă: În domeniul rapoartelor de cercetare financiară, modul de analiză profundă al DeepSeek-OCR poate fi utilizat pentru a obține rezultate structurate ale diagramelor din documente. Diagramele sunt o formă crucială de reprezentare a datelor în domeniile financiar și științific, iar extragerea structurată a diagramelor este o capacitate indispensabilă pentru viitoarele modele OCR.
7,21K