Apple menghadirkan AToken: Tokenizer visual terpadu • Tokenizer pertama yang menyatukan gambar, video & 3D • Ruang laten 4D bersama (mempertahankan rekonstruksi & semantik) • Kuat di seluruh tugas gen & pemahaman (ImageNet 82.2%, MSRVTT 32.6%, 3D acc 90.9%)