Jeg ble oppriktig imponert over hvor enkelt dette gjør videosøk. Jeg tror det ikke er grepet å bygge inn fullbilder med multimodale modeller for øyeblikket, og dette er måten. Dette kan imidlertid endre seg i fremtiden! Videosøk er fortsatt veldig begynnende, og dette er definitivt en innovasjon
Inference
Inference19. aug., 07:28
Det er noe veldig spesielt med skjemaet som @grass utviklet for ClipTagger-12B. Når du begynner å søke i massive videodatasett, blir det helt uvurderlig å bruke metadatafiltre for objekter, produksjonskvalitet, logoer eller handlinger. Modellen vi trente er flott, men dette var en ekte innovasjon som de kom til oss med.
2,36K