1/ 特定于代码库的 RL 能否推动代码 LLM 的前沿发展? 在 @cgftlabs,我们帮助客户在其内部代码库上对 Qwen-2.5-7B 进行 RL 调整,以创建单元测试,并使用覆盖率引导的 GRPO。结果如何?它击败了o4-mini和o3。这是它的工作原理(链接到个人简介中的完整博客) 🧵
7.93K