新しいブログ: RL を 10^26 FLOP にスケーリングする方法 誰もがRLで推論を拡張する正しい方法を見つけようとしています イリヤはインターネットを化石燃料に例えました:それは私たちが持っている唯一の有用なデータかもしれません。そしてそれは消耗品です おそらく、私たちはインターネットから推論することを学ぶべきです(数学やコードだけでなく)
75.97K