Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
RL jest tak wrażliwe na liczby, ostatnim razem kompilacja torch powodowała awarię, a teraz vllm v1

12 sie, 11:23
przejście z vllm v0 do v1 spowodowało awarię naszego treningu RL w trybie asynchronicznym! przeczytaj, jak to naprawiliśmy
niedawno przeszliśmy z v0 do v1 w ramach większej refaktoryzacji prime-rl, aby uczynić go łatwiejszym w użyciu, bardziej wydajnym i naturalnie asynchronicznym. potwierdziliśmy poprawną dynamikę treningu w wielu mniejszych uruchomieniach, ale napotkaliśmy ścianę, próbując odtworzyć większe uruchomienie, które działało bez problemów przed refaktoryzacją. Konkretnie, trening DeepSeek-R1-Distill-Qwen-1.5B na jednoetapowych problemach matematycznych z naszego zbioru danych INTELLECT-2 przy 8k kontekście z opóźnieniem off-policy w dwóch krokach kończył się fatalnie mniej więcej po 400 krokach treningu.

6,68K
Najlepsze
Ranking
Ulubione