刚刚合并了一个环境的 PR,以改进 LLM 作为法官,并评估模型的判断能力! 您是否知道所有可验证的 RL 环境几乎等同于基准测试(反之亦然!因此,我们在 Atropos 的基础中添加了一个 evaluate 命令,现在您可以通过 Atropos 环境运行基准测试。 我们对使用如此多过时或无法使用的基准测试框架感到沮丧,因此我们在 RL 环境框架 Atropos 中实现了仅评估模式。 因此,我们从现有环境之外的第一个移植是@natolambert的 Reward-Bench! 注意:它目前仅支持生成奖励模型(常规 LLM 评委)。 在这里查看公关:
20.65K