Uusi DeepSeek-OCR-malli on vaikuttava, mutta mielenkiintoisin on mahdollisuus käyttää visuaalisia tokeneita perustavanlaatuisemmalla tasolla: Voivatko mallit suorittaa päättelyä suoraan visuaalisessa piilevässä tilassa?
"Vaikka tämä paradigma keskittyy OCR:ään konseptin todisteena, se avaa uusia mahdollisuuksia miettiä uudelleen, miten näkö- ja kielimodaliteetit voidaan yhdistää synergistisesti laskennallisen tehokkuuden parantamiseksi laajamittaisissa tekstinkäsittely- ja agenttijärjestelmissä."
Tällä voi olla valtava vaikutus rahoitus-, konsultointi- ja niihin liittyvien alojen asiakirjojen käsittelyyn. Aiemmin taulukot ja kaaviot olivat suuri ongelma mallien oikealle lukemiselle. Kuvateksti: Taloustutkimusraporttien alalla DeepSeek-OCR:n syväjäsennystilaa voidaan käyttää asiakirjojen kaavioiden jäsenneltyjen tulosten saamiseen. Kaaviot ovat tärkeä tietojen esittämisen muoto rahoituksen ja tieteen aloilla, ja kaaviorakenteinen poiminta on välttämätön ominaisuus tuleville OCR-malleille.
7,23K