Ny DeepSeek-OCR-modell er imponerende, men mest interessant er muligheten for å bruke visuelle tokens på et mer grunnleggende nivå: Kan modeller utføre resonnement direkte i det visuelle latente rommet?
"Selv om det er fokusert på OCR som et proof-of-concept, åpner dette paradigmet nye muligheter for å tenke nytt om hvordan visjon og språkmodaliteter kan kombineres synergistisk for å forbedre beregningseffektiviteten i storskala tekstbehandlings- og agentsystemer."
Dette kan ha stor innvirkning på dokumentbehandling for økonomi, rådgivning og relaterte felt. Tidligere var tabeller og diagrammer et stort problem for modeller å lese riktig. Bildetekst: Innen finansielle forskningsrapporter kan den dype parsingsmodusen til DeepSeek-OCR brukes til å oppnå strukturerte resultater av diagrammer i dokumenter. Diagrammer er en avgjørende form for datarepresentasjon innen finans og vitenskapelige felt, og den strukturerte kartutvinningen er en uunnværlig evne for fremtidige OCR-modeller.
7,21K