Näyttää siltä, että muut ihmiset lähentyvät käyttämään vllm v1 logprobia tärkeyssuhteena vakausongelman korjaamiseksi. Luulen, että minulla on ptsd tämäntyyppisestä rl-kaatumisesta
Zichen Liu
Zichen Liu22.8. klo 23.35
Vain muutamalla koodirivillä Fengin (@fengyao1909) ehdottama korjaus – tärkeysnäytteenoton soveltaminen käyttäytymiskäytäntöön – ratkaisi harjoittelun epävakauden minun tapauksessani (kaura). Uskon, että tulos voidaan yleistää myös muihin RL-kehyksiin. Hienoa työtä, Feng!
6,34K