Vi introducerar ett bättre recept för att samla in data efter träning när du använder GRPO. Att samla in prover från experter är dyrt, annoteringsbudgetarna är begränsade. Vilka exempel är egentligen värda att betala för? Vi finner att fokus på hårda prover resulterar i en 30-40% förbättring. 1/7
31,44K