Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Ich habe gerade eine PR für eine Umgebung zusammengeführt, um LLM als Richter zu verbessern und Modelle auf ihre Fähigkeit zur Urteilsfindung hin zu bewerten!
Wussten Sie, dass alle überprüfbaren RL-Umgebungen nahezu äquivalent zu Benchmarks sind (und umgekehrt!)? Also haben wir der Atropos-Basis einen Evaluate-Befehl hinzugefügt und jetzt können Sie Benchmarks in Atropos-Umgebungen durchführen.
Wir waren frustriert, mit so vielen Benchmark-Frameworks zu arbeiten, die veraltet oder unbrauchbar waren, also haben wir den reinen Evaluierungsmodus in Atropos, unser RL-Umgebungs-Framework, implementiert.
Unsere erste Portierung von außerhalb unserer bestehenden Umgebungen war also die Reward-Bench von @natolambert!
Hinweis: Derzeit werden nur generative Belohnungsmodelle (reguläre LLM-Judges) unterstützt.
Schauen Sie sich die PR hier an:

20,66K
Top
Ranking
Favoriten