Sono rimasto sinceramente colpito da quanto sia facile questa ricerca video. Penso che incorporare fotogrammi completi con modelli multimodali non sia la strada giusta al momento, e questa è la via da seguire. Tuttavia, questo potrebbe cambiare in futuro! La ricerca video è ancora molto embrionale e questa è sicuramente un'innovazione.
Inference
Inference19 ago, 07:28
C'è qualcosa di davvero speciale nello schema che @grass ha sviluppato per ClipTagger-12B. Una volta che inizi a cercare in enormi dataset video, utilizzare filtri metadata per oggetti, qualità di produzione, loghi o azioni diventa assolutamente inestimabile. Il modello che abbiamo addestrato è ottimo, ma questa è stata una vera innovazione che ci hanno proposto.
2,36K