1/ Czy RL specyficzny dla bazy kodu może przesunąć granicę dla LLM kodu? W @cgftlabs pomogliśmy klientowi w dostrojeniu Qwen-2.5-7B do jego wewnętrznej bazy kodu do tworzenia testów jednostkowych, z GRPO kierowanym pokryciem. Efekt? Bije na głowę o4-mini i o3. Oto jak to działa (link do pełnego bloga w biografii) 🧵
7,94K