跳轉至主要內容
行情
掃鏈
追蹤
信號
牛人榜
兌換
資產
邀請計劃
更多
產品
DeFi
市場
洞察中心
Eco Hub
安全中心
開發者中心
X Layer
探索 X Layer
X Layer 瀏覽器
跨鏈橋
開發者文檔
測試網水龍頭
GitHub
Wallet API
探索 Wallet API
API 文檔
API Key 管理
區塊鏈瀏覽器
DApp 連接錢包
Boost
X Launch
參與 X Launch,搶先賺新幣
Giveaway
完成指定任務,領取空投好禮
交易賽
交易熱門代幣,衝榜贏大獎
獎勵中心
領取獎勵和空投
預警
語言
貨幣
下載 OKX Wallet
Web3 指南
公告
返回
繁體中文
简体中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
學院
幫助中心
發現功能使用指南
熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
Hosico
-2.89%
USELESS
+1.8%
IKUN
-6.1%
gib
+4.28%
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
Bonk
-0.82%
ALON
-6.76%
LAUNCHCOIN
+2.25%
GOONC
+1.26%
KLED
+4.65%
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
BOOP
-0.12%
Boopa
+1.06%
PORK
0.00%
主頁
pash
現任人工智慧@cline負責人 |上一篇 @meta 知識圖譜 |Vault 的創建者 // @usc 校友
查看原文
pash
11月22日 01:14
cline-bench + @PrimeIntellect 環境中心?? @willccbb
4.74K
43
pash
11月21日 03:54
我們宣布推出 cline-bench,一個針對代理編碼的現實世界開源基準。 cline-bench 是由參與開發者的現實工程任務構建而成,這些任務是前沿模型失敗時人類不得不介入的情況。 每個被接受的任務都會成為一個完全可重現的強化學習環境,包含一個起始的代碼庫快照、一個真實的提示,以及最終發佈的代碼的真實測試。 對於實驗室和研究人員來說,這意味著: > 你可以在真實的工程工作上評估模型,而不是 leetcode 謎題。 > 你獲得的環境與 Harbor 和現代評估工具兼容,便於並排比較。 > 你可以使用相同的任務進行 SFT 和 RL,這樣訓練和評估就能保持在真實的工程工作流程中。 今天,我們開始開放貢獻,並通過 Cline Provider 開始收集任務。參與是自願的,並且僅限於開源代碼庫。 當一個困難的任務讓模型陷入困境,而你介入時,這種失敗可以轉化為一個標準化的環境,整個社區都可以研究、基準測試和訓練。 如果你在解決困難的開源問題,特別是商業 OSS,我想親自邀請你來幫忙。我們承諾提供 100 萬美元來贊助開源維護者參加 cline-bench 計劃。 "Cline-bench 是一個很好的例子,展示了開放的現實世界基準如何推動整個生態系統向前發展。高質量、經過驗證的編碼任務,基於實際開發者工作流程,正是我們需要的,以有意義地衡量前沿模型、揭示失敗模式,並推進技術的最前沿。" – @shyamalanadkat,OpenAI 應用評估部門負責人 "Nous Research 專注於訓練和推廣在現實世界任務中表現優異的模型。cline-bench 將是我們努力最大化模型性能和理解其能力的重要工具。" – @Teknium,nousresearch 後訓練部門負責人 "我們是 Cline 所做的一切以賦能開源 AI 生態系統的忠實粉絲,並對支持 cline-bench 的發布感到非常興奮。高質量的開放環境對於代理編碼來說是極其稀有的。這次發布將在能力評估和作為挑戰性現實世界任務的後訓練測試平台方面走得很遠,推進我們對自主軟件開發的集體理解和能力。" – @willccbb,PrimeIntellect 研究負責人 "我們與 Cline 共享對開源的承諾,並相信讓這個基準對所有人可用將幫助我們繼續推進我們 LLM 的前沿編碼能力。" – @b_roziere,MistralAI 研究科學家 完整細節請參見博客:
99.69K
319
pash
11月18日 14:36
不需要廣告,順便說一下
Cline
11月18日 09:19
MiniMax M2 在 Cline 中再次免費! 這是排名前列的開放模型之一,適用於編碼和代理工作流程,具備交錯思考的能力。快速推理,對於複雜任務效率高。限時免費。這是嘗試的完美藉口。
6.61K
40
熱門
排行
收藏