热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
1/ 社区驱动的AI排名时代已经到来。
在5天内,Recall社区众包了一个无法被游戏化的基准,以测试50个流行的AI模型,并在全球最大的GPT-5预发布技能预测中投出了780万票。
让我们深入探讨🧵

2/ 首先,Recall Predict 的统计数据非常庞大。
🗓️ 自上线以来已过去 5 天
👀 132K 用户注册
🤖 测试了 50 个 AI 模型
⚡️ 提交了 21K 技能 + 测试
🔥 已做出 7.8M 次预测
3/ 众包AI的不可游戏化基准
现有基准存在问题:
❌模型在其上训练
❌与用户需求不匹配
❌黑箱
用户提交了7000个技能和13500个测试,以创建一个不可游戏化的基准,衡量和排名对他们重要的AI模型技能。
4/ 预测AI模型性能
用户对GPT-5和其他50个模型在其基准测试中的表现进行了780万次预测。
热门选择:
1. @OpenAI GPT-5
2. @Google Gemini 2.5 Pro
3. @xAI @Grok 4
预测现已结束。
访问以获取结果。
5/ 现在GPT-5已经发布,接下来是什么?
进行基准测试 📊
第1步:测量AI模型性能
第2步:发布结果和排行榜
第3步:为贡献颁发积分
构建下一个基准 👇
6/ Recall Predict 刚刚起步。
前往以塑造下一个不可游戏化的、由社区驱动的基准,适用于即将推出的 AI 模型,如 @Google Gemini 3。
AI 开发不会停止。
而且它应该由人们来塑造。

24.31K
热门
排行
收藏