我們宣布推出 cline-bench,一個針對代理編碼的現實世界開源基準。 cline-bench 是由參與開發者的現實工程任務構建而成,這些任務是前沿模型失敗時人類不得不介入的情況。 每個被接受的任務都會成為一個完全可重現的強化學習環境,包含一個起始的代碼庫快照、一個真實的提示,以及最終發佈的代碼的真實測試。 對於實驗室和研究人員來說,這意味著: > 你可以在真實的工程工作上評估模型,而不是 leetcode 謎題。 > 你獲得的環境與 Harbor 和現代評估工具兼容,便於並排比較。 > 你可以使用相同的任務進行 SFT 和 RL,這樣訓練和評估就能保持在真實的工程工作流程中。 今天,我們開始開放貢獻,並通過 Cline Provider 開始收集任務。參與是自願的,並且僅限於開源代碼庫。 當一個困難的任務讓模型陷入困境,而你介入時,這種失敗可以轉化為一個標準化的環境,整個社區都可以研究、基準測試和訓練。 如果你在解決困難的開源問題,特別是商業 OSS,我想親自邀請你來幫忙。我們承諾提供 100 萬美元來贊助開源維護者參加 cline-bench 計劃。 "Cline-bench 是一個很好的例子,展示了開放的現實世界基準如何推動整個生態系統向前發展。高質量、經過驗證的編碼任務,基於實際開發者工作流程,正是我們需要的,以有意義地衡量前沿模型、揭示失敗模式,並推進技術的最前沿。" – @shyamalanadkat,OpenAI 應用評估部門負責人 "Nous Research 專注於訓練和推廣在現實世界任務中表現優異的模型。cline-bench 將是我們努力最大化模型性能和理解其能力的重要工具。" – @Teknium,nousresearch 後訓練部門負責人 "我們是 Cline 所做的一切以賦能開源 AI 生態系統的忠實粉絲,並對支持 cline-bench 的發布感到非常興奮。高質量的開放環境對於代理編碼來說是極其稀有的。這次發布將在能力評估和作為挑戰性現實世界任務的後訓練測試平台方面走得很遠,推進我們對自主軟件開發的集體理解和能力。" – @willccbb,PrimeIntellect 研究負責人 "我們與 Cline 共享對開源的承諾,並相信讓這個基準對所有人可用將幫助我們繼續推進我們 LLM 的前沿編碼能力。" – @b_roziere,MistralAI 研究科學家 完整細節請參見博客: