一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

刚刚合并了一个环境的 PR，以改进 LLM 作为法官，并评估模型的判断能力！您是否知道所有可验证的 RL 环境几乎等同于基准测试（反之亦然！因此，我们在 Atropos 的基础中添加了一个 evaluate 命令，现在您可以通过 Atropos 环境运行基准测试。我们对使用如此多过时或无法使用的基准测试框架感到沮丧，因此我们在 RL 环境框架 Atropos 中实现了仅评估模式。因此，我们从现有环境之外的第一个移植是@natolambert的 Reward-Bench！注意：它目前仅支持生成奖励模型（常规 LLM 评委）。在这里查看公关：

20.65K