OpenAI 已經明確表示,評估應該 "使模糊的目標具體化和明確化",而前沿評估需要與匹配實際工作流程的上下文評估配對,而不是提示遊樂場: @shyamalanadkat,OpenAI 應用評估部門負責人,所描述的正是我們希望為編碼代理人與 cline-bench 所建立的相同循環:一組共享的黃金集,包含艱難的、現實世界的編碼任務,模型在這些任務中掙扎,人類不得不介入,這些任務被打包為可重現的環境,以便實驗室和團隊可以具體說明什麼是 "優秀",在真實條件下測量性能,並通過從具體失敗案例中學習來改進: 如果你想了解 OpenAI 如何看待評估的完整背景,這裡有入門資料: