苹果推出 AToken:一个统一的视觉标记器 • 第一个统一图像、视频和 3D 的标记器 • 共享 4D 潜在空间(保留重建和语义) • 在生成和理解任务中表现强劲(ImageNet 82.2%,MSRVTT 32.6%,3D 准确率 90.9%)