Apple prezentuje AToken: Zjednoczony wizualny tokenizator • Pierwszy tokenizator łączący obrazy, filmy i 3D • Wspólna przestrzeń latentna 4D (zachowuje zarówno rekonstrukcję, jak i semantykę) • Silny w zadaniach generacyjnych i rozumienia (ImageNet 82,2%, MSRVTT 32,6%, dokładność 3D 90,9%)