仅用十亿美元,我们将 swebench 的性能提高了整整 3%。在计算和数据上各投入 5 亿美元后,遗憾的是没有剩余资金来改善基准测试本身。但请不要担心,因为我们计划下次投入 100 亿美元。
如果一个超级自闭的马基雅维利在这里工作,他会解决这个问题。这只需要一个人。
1.83K