跳转至主要内容
行情
扫链
追踪
信号
牛人榜
兑换
资产
邀请计划
更多
产品
DeFi
市场
洞察中心
Eco Hub
安全中心
开发者中心
X Layer
探索 X Layer
X Layer 浏览器
跨链桥
开发者文档
测试网水龙头
GitHub
Wallet API
探索 Wallet API
API 文档
API Key 管理
区块链浏览器
DApp 连接钱包
Boost
X Launch
参与 X Launch,抢先赚新币
Giveaway
完成指定任务,领取空投好礼
交易赛
交易热门代币,冲榜赢大奖
奖励中心
领取奖励和空投
预警
语言
货币
下载 OKX Wallet
Web3 指南
公告
返回
简体中文
繁體中文
English
Tiếng Việt
Русский
Español (Latinoamérica)
Bahasa Indonesia
Français
Deutsch
Italiano
Polski
Čeština
Română
Português (Portugal)
Português (Brasil)
Українська
Español (España)
Nederlands
العربية
日本語
Norsk (bokmål)
Suomi
Svenska
返回
返回
学院
帮助中心
发现功能使用指南
热门话题
#
Bonk 生态迷因币展现强韧势头
Hosico
-1.49%
USELESS
+4.3%
IKUN
-7.25%
gib
+4.89%
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
Bonk
-1.03%
ALON
-2.96%
LAUNCHCOIN
0.00%
GOONC
-4.41%
KLED
-2.94%
#
Solana 新代币发射平台 Boop.Fun 风头正劲
BOOP
-0.8%
Boopa
-12.28%
PORK
0.00%
主页
pash
现任人工智能@cline负责人 |上一篇 @meta 知识图谱 |Vault 的创建者 // @usc 校友
查看原文
pash
11月22日 01:14
cline-bench + @PrimeIntellect 环境中心?? @willccbb
4.71K
43
pash
11月21日 03:54
我们宣布了 cline-bench,这是一个真实世界的开源基准,用于代理编码。 cline-bench 是由参与开发者的真实工程任务构建的,在这些任务中,前沿模型失败了,人类不得不介入。 每个被接受的任务都成为一个完全可重现的强化学习环境,包含一个起始的代码库快照、一个真实的提示和最终交付代码的真实测试。 对于实验室和研究人员,这意味着: > 你可以在真实的工程工作上评估模型,而不是 leetcode 难题。 > 你可以获得与 Harbor 和现代评估工具兼容的环境,以便进行并排比较。 > 你可以使用相同的任务进行 SFT 和 RL,因此训练和评估始终与真实的工程工作流程保持一致。 今天,我们开始开放贡献,并通过 Cline Provider 开始收集任务。参与是自愿的,并且仅限于开源代码库。 当一个困难的任务让模型感到困惑,而你介入时,这种失败可以转化为一个标准化的环境,整个社区都可以研究、基准测试和训练。 如果你在处理困难的开源问题,特别是商业 OSS,我想亲自邀请你来帮助我们。我们承诺提供 100 万美元来赞助开源维护者参与 cline-bench 计划。 "Cline-bench 是一个很好的例子,说明开放的、真实世界的基准如何推动整个生态系统向前发展。高质量、经过验证的编码任务,基于实际开发者的工作流程,正是我们需要的,以有意义地衡量前沿模型,揭示失败模式,并推动技术的进步。" – @shyamalanadkat,OpenAI 应用评估负责人 "Nous Research 专注于训练和推广在真实世界任务中表现出色的模型。cline-bench 将成为我们努力最大化模型性能和理解能力的重要工具。" – @Teknium,nousresearch 后训练负责人 "我们是 Cline 所做的一切以赋能开源 AI 生态系统的忠实粉丝,并对支持 cline-bench 发布感到无比兴奋。高质量的开放环境用于代理编码是极其稀有的。此次发布将大大推动我们对能力的评估,并作为一个后训练测试平台,处理具有挑战性的真实世界任务,提升我们对自主软件开发的集体理解和能力。" – @willccbb,PrimeIntellect 研究负责人 "我们与 Cline 一致致力于开源,并相信将这个基准提供给所有人将帮助我们继续推动 LLM 的前沿编码能力。" – @b_roziere,MistralAI 研究科学家 完整细节请见博客:
99.68K
319
pash
11月18日 14:36
顺便说一下,不需要广告
Cline
11月18日 09:19
MiniMax M2 在 Cline 中再次免费! 这是一个排名靠前的开放模型,适用于编码和代理工作流程,具有交错思维。快速推理,适合复杂任务。限时免费。绝佳的借口来尝试一下。
6.58K
40
热门
排行
收藏