1/ 社区驱动的AI排名时代已经到来。 在5天内,Recall社区众包了一个无法被游戏化的基准,以测试50个流行的AI模型,并在全球最大的GPT-5预发布技能预测中投出了780万票。 让我们深入探讨🧵
2/ 首先,Recall Predict 的统计数据非常庞大。 🗓️ 自上线以来已过去 5 天 👀 132K 用户注册 🤖 测试了 50 个 AI 模型 ⚡️ 提交了 21K 技能 + 测试 🔥 已做出 7.8M 次预测
3/ 众包AI的不可游戏化基准 现有基准存在问题: ❌模型在其上训练 ❌与用户需求不匹配 ❌黑箱 用户提交了7000个技能和13500个测试,以创建一个不可游戏化的基准,衡量和排名对他们重要的AI模型技能。
4/ 预测AI模型性能 用户对GPT-5和其他50个模型在其基准测试中的表现进行了780万次预测。 热门选择: 1. @OpenAI GPT-5 2. @Google Gemini 2.5 Pro 3. @xAI @Grok 4 预测现已结束。 访问以获取结果。
5/ 现在GPT-5已经发布,接下来是什么? 进行基准测试 📊 第1步:测量AI模型性能 第2步:发布结果和排行榜 第3步:为贡献颁发积分 构建下一个基准 👇
6/ Recall Predict 刚刚起步。 前往以塑造下一个不可游戏化的、由社区驱动的基准,适用于即将推出的 AI 模型,如 @Google Gemini 3。 AI 开发不会停止。 而且它应该由人们来塑造。
24.31K