1/ Kan codebase-specifieke RL de grens verleggen voor code LLM's? Bij @cgftlabs hebben we een klant geholpen met het RL-tunen van Qwen-2.5-7B op hun interne codebase voor het maken van unittests, met dekkingsgeleide GRPO. Het resultaat? Het verslaat o4-mini & o3. Zo werkt het (link naar volledige blog in bio) 🧵
7,99K