热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
刚刚合并了一个环境的 PR,以改进 LLM 作为法官,并评估模型的判断能力!
您是否知道所有可验证的 RL 环境几乎等同于基准测试(反之亦然!因此,我们在 Atropos 的基础中添加了一个 evaluate 命令,现在您可以通过 Atropos 环境运行基准测试。
我们对使用如此多过时或无法使用的基准测试框架感到沮丧,因此我们在 RL 环境框架 Atropos 中实现了仅评估模式。
因此,我们从现有环境之外的第一个移植是@natolambert的 Reward-Bench!
注意:它目前仅支持生成奖励模型(常规 LLM 评委)。
在这里查看公关:

20.65K
热门
排行
收藏