DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Ich habe gerade eine PR für eine Umgebung zusammengeführt, um LLM als Richter zu verbessern und Modelle auf ihre Fähigkeit zur Urteilsfindung hin zu bewerten! Wussten Sie, dass alle überprüfbaren RL-Umgebungen nahezu äquivalent zu Benchmarks sind (und umgekehrt!)? Also haben wir der Atropos-Basis einen Evaluate-Befehl hinzugefügt und jetzt können Sie Benchmarks in Atropos-Umgebungen durchführen. Wir waren frustriert, mit so vielen Benchmark-Frameworks zu arbeiten, die veraltet oder unbrauchbar waren, also haben wir den reinen Evaluierungsmodus in Atropos, unser RL-Umgebungs-Framework, implementiert. Unsere erste Portierung von außerhalb unserer bestehenden Umgebungen war also die Reward-Bench von @natolambert! Hinweis: Derzeit werden nur generative Belohnungsmodelle (reguläre LLM-Judges) unterstützt. Schauen Sie sich die PR hier an:

20,66K

Top

Ranking

Favoriten

Onchain-Trends

Im Trend auf X

Aktuelle Top-Finanzierungen

Am bemerkenswertesten