僅用十億美元,我們已將 swebench 的性能提高了整整 3%。在計算和數據上各花了 5 億,遺憾的是沒有剩餘的資金來改善基準測試本身。但不用擔心,因為我們計劃下次投入 100 億美元。
如果一位超自閉的馬基雅維利在這裡工作,他會解決這個問題。這只需要一個人。
1.83K