L'apprentissage par renforcement permet aux LLM de battre les humains lors de compétitions de programmation/mathématiques et a conduit à des avancées récentes (la série o d'OpenAI, Claude 4 d'Anthropic) L'apprentissage par renforcement permettra-t-il une généralisation large de la même manière que le pré-entraînement ? Pas avec les techniques actuelles 🧵 1/7
🔗Liens ici et fil de discussion ci-dessous : Papier: Douleur moyenne: Sous-pile : 2/7
L'évaluation existante des LLMs évalue principalement la performance en domaine, en utilisant des modèles de renforcement post-formation (RPT) entraînés sur des données de domaines mixtes et évalués sur des benchmarks étroitement alignés avec leurs domaines d'entraînement. Ces configurations introduisent des facteurs de confusion qui obscurcissent l'étendue réelle de la capacité de généralisation de RPT. 3/7
Nous introduisons un cadre d’évaluation unifié qui isole et teste la généralisation interdomaine de RPT à l’aide de 16 points de référence couvrant les mathématiques, le code et le raisonnement intensif en connaissances. Dans ce cadre, nous évaluons diverses combinaisons de modèles de base et de stratégies RPT 4/7
📌 Nos principales constatations : 1️⃣ Les gains RPT sont principalement dans le domaine 2️⃣ Les mathématiques et le code se généralisent bien l’un à l’autre 3️⃣ Les compétences structurées ne se transfèrent pas à des tâches non structurées et à forte intensité de connaissances 5/7
Ce qu’il faut retenir ? Le RPT est puissant mais étroit Il améliore les performances là où il est entraîné, mais généralise mal 6/7
Ce travail est mené conjointement avec @ChuxuanHu, @maxYuxuanZhu, @aokellermann, Caleb Biddulph, @PunWai et @jasoncbenn 7/7
2,78K