Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Je me demande ce qui se passerait si vous reproduisiez l'étude sur l'élévation de l'IA METR, mais pour des outils plus banals.
Par exemple, complétez cette demande de tirage, mais sans accès à Internet.
Je ne serais pas surpris si la productivité s'améliorait (tout comme elle l'a fait sans LLM).
Si c'est le cas, peut-être que l'étude en dit plus sur la facilité avec laquelle on peut se distraire (et sur le fait que tant que vous avez une autre option, vous refuserez de consacrer un effort cognitif au cœur du problème) que sur les assistants de codage LLM spécifiquement.

METR11 juil. 2025
Nous avons mené un essai contrôlé randomisé pour voir dans quelle mesure les outils de codage de l’IA accélèrent les développeurs open source expérimentés.
Les résultats nous ont surpris : les développeurs pensaient être 20 % plus rapides avec les outils d’IA, mais ils étaient en fait 19 % plus lents lorsqu’ils avaient accès à l’IA que lorsqu’ils n’y avaient pas.

38,45K
D'après le post de @tobyordoxford.
Y a-t-il de bonnes preuves publiques de l'étendue des compétences que les LLM apprennent grâce à l'apprentissage par renforcement (RL) ?
Par exemple, quel est l'exemple le plus convaincant d'apprentissage par transfert en RL ? Où l'entraînement dans un environnement spécifique conduit à de meilleures capacités dans des domaines assez dissemblables ?
Je sais qu'une réponse évidente ici pourrait être de simplement pointer vers GPT 5. Cependant, il est probable que son amélioration en matière de pensée générale par rapport à GPT 4 soit due à l'apprentissage par renforcement.


Dwarkesh Patel20 sept., 01:44
Post intéressant. Les bits/FLOP de l'apprentissage par renforcement (RL) sont de 3 à 6 ordres de grandeur plus bas que ceux du pré-entraînement.
Bien que @tamaybes ait souligné que les bits provenant du RL peuvent cibler les compétences spécifiques que vous souhaitez apprendre. Alors que le pré-entraînement distribue simplement ces bits sur l'apprentissage de relations ASCII aléatoires et d'un million d'autres choses non pertinentes.
De plus, pour toute tâche donnée, il y a beaucoup de décisions dont l'exécution spécifique n'a pas beaucoup d'importance, et quelques-unes que vous voulez vraiment maîtriser. Le RL peut concentrer le signal sur l'apprentissage de la manière de ne pas gâcher les états critiques dans l'épisode, plutôt que d'obtenir chaque token correct. Image utile d'une des anciennes conférences de @svlevine (B est l'état critique) :
Je pense que cela revient toujours à dire que le RL est de loin moins dense en informations que le pré-entraînement. Et je suis d'accord avec Toby que le gain d'intelligence par FLOP de l'entraînement dans un environnement RL sera inférieur à ce que beaucoup supposent.
Je travaille sur un post à ce sujet avec @EgeErdil2, @MatthewJBar et @tamaybes. J'espère que nous pourrons publier la semaine prochaine.


51,59K
Meilleurs
Classement
Favoris