La plus grande question dans la recherche RL a toujours été : dans quel environnement vous entraînez-vous ? Autrefois, il s’agissait de jeux vidéo (Atari) et de jeux de société (Go / Chess). Mais maintenant que RL travaille avec des LLM, il n’y a qu’un seul environnement qui compte. Et c’est votre produit.
Kevin Lu
Kevin Lu10 juil. 2025
Pourquoi devriez-vous arrêter de travailler sur la recherche RL et plutôt travailler sur le produit // La technologie qui a déclenché le grand changement d’échelle de l’IA est Internet, pas les transformateurs Je pense qu’il est bien connu que les données sont la chose la plus importante en IA, et aussi que les chercheurs choisissent de ne pas y travailler de toute façon. ... Qu’est-ce que cela signifie de travailler sur des données (de manière évolutive) ? Internet a fourni une source riche de données abondantes, diversifiées, fournissant un programme naturel, représentant les compétences qui intéressent réellement les gens et constituant une technologie économiquement viable à déployer à grande échelle - il est devenu le complément parfait à la prédiction du prochain jeton et a été la soupe primordiale pour que l’IA décolle. Sans les transformateurs, un certain nombre d’approches auraient pu décoller, nous aurions probablement pu avoir des CNN ou des modèles d’espace d’état au niveau de GPT-4.5. Mais il n’y a pas eu d’amélioration spectaculaire des modèles de base depuis GPT-4. Les modèles de raisonnement sont excellents dans des domaines étroits, mais pas aussi importants que GPT-4 en mars 2023 (il y a plus de 2 ans...) Nous avons quelque chose de formidable avec l’apprentissage par renforcement, mais ma profonde crainte est que nous répétions les erreurs du passé (RL de l’ère 2015-2020) et que nous fassions des recherches RL qui n’ont pas d’importance. De la même manière qu’Internet était le double de la préformation supervisée, quel sera le double de RL qui conduira à une avancée massive comme GPT-1 -> GPT-4 ? Je pense que cela ressemble à une co-conception recherche-produit.
11,14K