今天,我们发布了 FineVision,这是一个巨大的开源数据集,用于训练最先进的视觉-语言模型: > 1730 万张图片 > 2430 万个样本 > 8890 万个回合 > 95 亿个答案令牌 以下是我最喜欢的发现:
97.1K