熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
似乎其他人都傾向於使用 vllm v1 logprob 作為重要性比率來解決穩定性問題。
我覺得我對這種類型的強化學習崩潰有創傷後應激障礙。

8月22日 23:35
僅用幾行程式碼,Feng(@fengyao1909)建議的修復方法——在行為策略上應用重要性採樣——解決了我案例中的訓練不穩定性(oat)。我相信這個結果也可以推廣到其他強化學習框架。幹得好,Feng!

6.33K
熱門
排行
收藏