Zdá se, že ostatní lidé konvergují k používání vllm v1 logprob pro poměr důležitosti k vyřešení problému se stabilitou. Myslím, že mám ptsd z tohoto typu rl crash
Zichen Liu
Zichen Liu22. 8. 23:35
S pouhými několika řádky kódu Fengova (@fengyao1909) navržená oprava – použití vzorkování důležitosti na politiku chování – vyřešila nestabilitu tréninku v mém případě (oat). Věřím, že výsledek lze zobecnit i na jiné rámce RL. Skvělá práce, Fengu!
6,33K