Apple prezintă AToken: Un tokenizator vizual unificat • Primul tokenizator care unește imagini, videoclipuri și 3D • Spațiu latent 4D comun (păstrează atât reconstrucția, cât și semantica) • Sarcini puternice de generare și înțelegere (ImageNet 82,2%, MSRVTT 32,6%, 3D acc 90,9%)