Presentamos una mejor receta para recopilar datos post-entrenamiento al usar GRPO. Recopilar muestras de expertos es costoso, los presupuestos de anotación son limitados. ¿Qué ejemplos realmente valen la pena pagar? Descubrimos que centrarse en muestras difíciles resulta en una mejora del 30-40%. 1/7
31,44K