Nový model DeepSeek-OCR je působivý, ale nejzajímavější je možnost použití vizuálních tokenů na fundamentálnější úrovni: Mohou modely provádět uvažování přímo ve vizuálním latentním prostoru?
"Ačkoli se toto paradigma zaměřuje na OCR jako důkaz konceptu, otevírá nové možnosti pro přehodnocení toho, jak lze vizuálně a jazykové modality synergicky kombinovat za účelem zvýšení výpočetní efektivity v rozsáhlých systémech zpracování textu a agentů."
To může mít obrovský dopad na zpracování dokumentů pro finance, poradenství a příbuzné obory. Dříve byly tabulky a grafy pro modely velkým problémem pro správné čtení. Popisek: V oblasti zpráv o finančním výzkumu lze režim hluboké analýzy DeepSeek-OCR použít k získání strukturovaných výsledků grafů v dokumentech. Grafy jsou klíčovou formou reprezentace dat ve finančních a vědeckých oborech a extrakce strukturovaných grafů je nepostradatelnou schopností pro budoucí modely OCR.
7,21K