1/ Voiko koodikantakohtainen RL työntää koodi-LLM:ien rajaa? @cgftlabs:ssä autoimme asiakasta RL-virittämään Qwen-2.5-7B:n sisäisessä koodikannassaan yksikkötestien luomista varten kattavuusohjatun GRPO:n avulla. Lopputulos? Se voittaa o4-minin ja o3:n. Näin se toimii (linkki koko blogiin biossa) 🧵
8K