1/ Чи може RL для конкретної кодової бази розширити межі для кодових LLM? У @cgftlabs році ми допомогли клієнту налаштувати RL-настройку Qwen-2.5-7B на його внутрішній кодовій базі для створення модульних тестів за допомогою GRPO з керуванням покриттям. До чого це призвело? Він перевершує o4-mini & o3. Ось як це працює (посилання на повний блог у біографії) 🧵
7,93K