Apple presenta AToken: un tokenizzatore visivo unificato • Primo tokenizzatore che unifica immagini, video e 3D • Spazio latente 4D condiviso (preserva sia la ricostruzione che la semantica) • Forte in compiti di generazione e comprensione (ImageNet 82.2%, MSRVTT 32.6%, precisione 3D 90.9%)