Apple представляє AToken: уніфікований візуальний токенізатор • Перший токенізатор, що об'єднує зображення, відео та 3D • Спільний 4D латентний простір (зберігає як реконструкцію, так і семантику) • Сильний рівень виконання завдань покоління та розуміння (ImageNet 82,2%, MSRVTT 32,6%, 3D acc 90,9%)