.@willccbb (Prime Intellect リサーチ リード) が RL 環境が実際にどのように機能するかについて: 「環境は本質的に評価です。入力タスクとハーネスがあり、最後にモデルやエージェントのパフォーマンスをスコアリングします。これが、評価とRLトレーニングの両方に使用するセットアップです。」 彼は、未来は単に「1 つの巨大なクラスターに 100,000 個の GPU を搭載すること」だけではないと付け加えています。
17.7K