Mis amigos de @eternisai acaban de publicar un artículo que muestra que entrenar modelos de IA en los ejemplos más difíciles conduce a un rendimiento un 40% mejor en las tareas de razonamiento. Esto es contrario a la intuición para los humanos a los que les gusta aprender con las cosas más fáciles.
Pratyush Ranjan Tiwari
Pratyush Ranjan Tiwari23 ago, 01:41
Presentamos una mejor receta para recopilar datos posteriores al entrenamiento cuando se usa GRPO. La recolección de muestras de expertos es costosa, los presupuestos de anotación son limitados. ¿Por qué ejemplos vale la pena pagar? Descubrimos que centrarse en muestras duras da como resultado una mejora del 30-40%. 1/7
362