トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
審査員としてのLLMを改善し、判断を行う能力についてモデルを評価するための環境のPRをマージしました。
検証可能なすべてのRL環境はベンチマークとほぼ同等です(その逆も同様です)ことをご存知ですか?そこで、Atropos のベースに評価コマンドを追加し、Atropos 環境を通じてベンチマークを実行できるようになりました。
時代遅れまたは使用できないベンチマークフレームワークを非常に多く使用することに不満を感じたため、RL環境フレームワークであるAtroposに評価専用モードを実装しました。
そこで、既存の環境の外から最初に移植したのは、@natolambertのReward-Benchでした。
注: 現時点では、生成報酬モデル (通常の LLM ジャッジ) のみをサポートしています。
PRはこちらでご覧ください。

20.65K
トップ
ランキング
お気に入り