🚨 DeepMind droppet til slutt Veo3-papiret som viser hva vi alle skjønner fra å leke med videogenerasjonsmodeller. Akkurat som LLM-er, er visuell resonnement på en fremvoksende egenskap ved trening på tonnevis av video. Den kan løse oppgaver som ikke eksplisitt er i treningsdata. "Veo 3 er GPT-3-øyeblikket for visuell resonnement"
Kilde:
285,3K