1/ L’apprentissage par renforcement spécifique à la base de code peut-il repousser les limites des LLM de code ? Chez @cgftlabs, nous avons aidé un client RL-tune Qwen-2.5-7B sur sa base de code interne pour la création de tests unitaires, avec GRPO guidé par la couverture. Le résultat ? Il bat o4-mini et o3. Voici comment cela fonctionne (lien vers le blog complet dans la bio) 🧵
7,94K