RL jest tak wrażliwe na liczby, ostatnim razem kompilacja torch powodowała awarię, a teraz vllm v1
Mika Senghaas
Mika Senghaas12 sie, 11:23
przejście z vllm v0 do v1 spowodowało awarię naszego treningu RL w trybie asynchronicznym! przeczytaj, jak to naprawiliśmy niedawno przeszliśmy z v0 do v1 w ramach większej refaktoryzacji prime-rl, aby uczynić go łatwiejszym w użyciu, bardziej wydajnym i naturalnie asynchronicznym. potwierdziliśmy poprawną dynamikę treningu w wielu mniejszych uruchomieniach, ale napotkaliśmy ścianę, próbując odtworzyć większe uruchomienie, które działało bez problemów przed refaktoryzacją. Konkretnie, trening DeepSeek-R1-Distill-Qwen-1.5B na jednoetapowych problemach matematycznych z naszego zbioru danych INTELLECT-2 przy 8k kontekście z opóźnieniem off-policy w dwóch krokach kończył się fatalnie mniej więcej po 400 krokach treningu.
6,68K