Похоже, что другие люди начинают использовать vllm v1 logprob для соотношения важности, чтобы исправить проблему стабильности. Я думаю, у меня посттравматическое стрессовое расстройство от такого рода краха RL.
Zichen Liu
Zichen Liu22 авг., 23:35
Всего лишь с несколькими строками кода предложенное решение Фэна (@fengyao1909) — применение важностного отбора к политике поведения — решило проблему нестабильности обучения в моем случае (oat). Я верю, что этот результат может быть обобщен и для других RL-фреймворков. Отличная работа, Фэн!
6,34K