1/ Bisakah RL khusus basis kode mendorong batas untuk kode LLM? Di @cgftlabs, kami membantu klien RL-tune Qwen-2.5-7B pada basis kode internal mereka untuk pembuatan pengujian unit, dengan GRPO yang dipandu cakupan. Hasilnya? Ini mengalahkan o4-mini & o3. Begini cara kerjanya (tautan ke blog lengkap di bio) 🧵
7,93K