Схоже, що інші люди сходяться до використання logprob vllm v1 для співвідношення важливості для вирішення проблеми стабільності. Я думаю, що у мене посттравматичний стресовий розлад від цього типу збою rl
Zichen Liu
Zichen Liu22 серп., 23:35
За допомогою всього кількох рядків коду запропоноване Фенгом (@fengyao1909) виправлення — застосування вибірки важливості до політики поведінки — вирішило нестабільність навчання в моєму випадку (oat). Я вважаю, що результат можна узагальнити і на інші фреймворки RL. Відмінна робота, Фенг!
6,33K