我们宣布了 cline-bench,这是一个真实世界的开源基准,用于代理编码。 cline-bench 是由参与开发者的真实工程任务构建的,在这些任务中,前沿模型失败了,人类不得不介入。 每个被接受的任务都成为一个完全可重现的强化学习环境,包含一个起始的代码库快照、一个真实的提示和最终交付代码的真实测试。 对于实验室和研究人员,这意味着: > 你可以在真实的工程工作上评估模型,而不是 leetcode 难题。 > 你可以获得与 Harbor 和现代评估工具兼容的环境,以便进行并排比较。 > 你可以使用相同的任务进行 SFT 和 RL,因此训练和评估始终与真实的工程工作流程保持一致。 今天,我们开始开放贡献,并通过 Cline Provider 开始收集任务。参与是自愿的,并且仅限于开源代码库。 当一个困难的任务让模型感到困惑,而你介入时,这种失败可以转化为一个标准化的环境,整个社区都可以研究、基准测试和训练。 如果你在处理困难的开源问题,特别是商业 OSS,我想亲自邀请你来帮助我们。我们承诺提供 100 万美元来赞助开源维护者参与 cline-bench 计划。 "Cline-bench 是一个很好的例子,说明开放的、真实世界的基准如何推动整个生态系统向前发展。高质量、经过验证的编码任务,基于实际开发者的工作流程,正是我们需要的,以有意义地衡量前沿模型,揭示失败模式,并推动技术的进步。" – @shyamalanadkat,OpenAI 应用评估负责人 "Nous Research 专注于训练和推广在真实世界任务中表现出色的模型。cline-bench 将成为我们努力最大化模型性能和理解能力的重要工具。" – @Teknium,nousresearch 后训练负责人 "我们是 Cline 所做的一切以赋能开源 AI 生态系统的忠实粉丝,并对支持 cline-bench 发布感到无比兴奋。高质量的开放环境用于代理编码是极其稀有的。此次发布将大大推动我们对能力的评估,并作为一个后训练测试平台,处理具有挑战性的真实世界任务,提升我们对自主软件开发的集体理解和能力。" – @willccbb,PrimeIntellect 研究负责人 "我们与 Cline 一致致力于开源,并相信将这个基准提供给所有人将帮助我们继续推动 LLM 的前沿编码能力。" – @b_roziere,MistralAI 研究科学家 完整细节请见博客: