RLエンジニアを募集! 社会的推論におけるLLMの限界を押し広げるという@lossfunkの興味深いプロジェクトとして始まり、現在はRL環境、データ、ベンチマークを構築して、より現実世界のシナリオをシミュレートしています。 マルチ GPU (H200/B200) 上で SoTA RL モデルをトレーニングして、次の AI フロンティアを開拓したい場合は、これが最適です。
39.36K