Nowy model DeepSeek-OCR jest imponujący, ale najbardziej interesująca jest możliwość używania tokenów wizualnych na bardziej fundamentalnym poziomie: Czy modele mogą przeprowadzać rozumowanie bezpośrednio w wizualnej przestrzeni latentnej?
"Chociaż skoncentrowano się na OCR jako dowodzie koncepcji, ten paradygmat otwiera nowe możliwości przemyślenia, jak modality wizji i języka mogą być synergicznie łączone w celu zwiększenia efektywności obliczeniowej w przetwarzaniu tekstu na dużą skalę i systemach agentów."
To może mieć ogromny wpływ na przetwarzanie dokumentów w finansach, doradztwie i pokrewnych dziedzinach. Wcześniej tabele i wykresy były dużym problemem dla modeli, aby poprawnie je odczytać. Podpis: W dziedzinie raportów badawczych w finansach, tryb głębokiego przetwarzania DeepSeek-OCR może być używany do uzyskiwania ustrukturyzowanych wyników wykresów w dokumentach. Wykresy są kluczową formą reprezentacji danych w finansach i dziedzinach naukowych, a strukturalne wydobywanie wykresów jest niezbędną zdolnością dla przyszłych modeli OCR.
7,2K