Het lijkt erop dat andere mensen convergeren naar het gebruik van vllm v1 logprob voor de belangrijkheidsverhouding om het stabiliteitsprobleem op te lossen. Ik denk dat ik PTSD heb van dit soort RL-crashes.
Zichen Liu
Zichen Liu22 aug, 23:35
Met slechts een paar regels code heeft Feng's (@fengyao1909) voorgestelde oplossing—het toepassen van importance sampling op het gedrag beleid—de trainingsinstabiliteit in mijn geval (oat) opgelost. Ik geloof dat het resultaat ook kan generaliseren naar andere RL-frameworks. Geweldig werk, Feng!
6,34K