分散型アプリ（DApp）ストア｜イベントおよびゲーム用 Web3 ハブ

トレンドトピック

審査員としてのLLMを改善し、判断を行う能力についてモデルを評価するための環境のPRをマージしました。検証可能なすべてのRL環境はベンチマークとほぼ同等です(その逆も同様です)ことをご存知ですか?そこで、Atropos のベースに評価コマンドを追加し、Atropos 環境を通じてベンチマークを実行できるようになりました。時代遅れまたは使用できないベンチマークフレームワークを非常に多く使用することに不満を感じたため、RL環境フレームワークであるAtroposに評価専用モードを実装しました。そこで、既存の環境の外から最初に移植したのは、@natolambertのReward-Benchでした。注: 現時点では、生成報酬モデル (通常の LLM ジャッジ) のみをサポートしています。 PRはこちらでご覧ください。

20.65K

トップ

ランキング

お気に入り

Trending onchain

Trending on X

Recent top fundings

Most notable