蘋果推出 AToken:一個統一的視覺標記器 • 第一個統一圖像、視頻和 3D 的標記器 • 共享 4D 潛在空間(保留重建和語義) • 在生成和理解任務中表現強勁(ImageNet 82.2%,MSRVTT 32.6%,3D 準確率 90.9%)