Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Mise à jour de la carte cognitive
Selon le grand expert en IA Andrej Karpathy, à l'ère de la pré-formation, la clé est les données textuelles d'Internet ; à l'ère du réglage supervisé, la clé est la structure de connaissances structurées des questions-réponses de Zhihu et Stackflow ; à l'ère de l'apprentissage par renforcement, la clé est la diversité des environnements.
Dans le domaine AI x Crypto, qui se concentre sur la tokenisation des actifs d'IA, en plus de la puissance de calcul traditionnelle, des données, des modèles et des agents, il existe de nouveaux actifs d'IA pouvant être tokenisés : l'environnement.

28 août, 04:34
À l'ère du pré-entraînement, ce qui comptait, c'était le texte d'internet. Vous voudriez principalement une grande collection diversifiée et de haute qualité de documents internet à partir desquels apprendre.
À l'ère du finetuning supervisé, ce sont les conversations qui comptaient. Des travailleurs sous contrat sont engagés pour créer des réponses à des questions, un peu comme ce que vous verriez sur Stack Overflow / Quora, etc., mais orienté vers les cas d'utilisation des LLM.
Aucun des deux précédents ne disparaîtra (à mon avis), mais à cette époque de l'apprentissage par renforcement, ce sont maintenant les environnements qui comptent. Contrairement aux précédents, ils donnent au LLM l'opportunité d'interagir réellement - de prendre des actions, de voir des résultats, etc. Cela signifie que vous pouvez espérer faire beaucoup mieux qu'une imitation experte statistique. Et ils peuvent être utilisés à la fois pour l'entraînement et l'évaluation du modèle. Mais tout comme auparavant, le problème central est maintenant de nécessiter un ensemble large, diversifié et de haute qualité d'environnements, comme exercices pour que le LLM puisse s'entraîner.
D'une certaine manière, je me rappelle du tout premier projet d'OpenAI (gym), qui était exactement un cadre espérant construire une grande collection d'environnements dans le même schéma, mais c'était bien avant les LLM. Donc, les environnements étaient des tâches de contrôle académique simples de l'époque, comme cartpole, ATARI, etc. Le hub d'environnements @PrimeIntellect (et le dépôt `verifiers` sur GitHub) construit la version modernisée ciblant spécifiquement les LLM, et c'est un grand effort/une grande idée. J'ai proposé que quelqu'un construise quelque chose comme ça plus tôt cette année :
Les environnements ont la propriété qu'une fois que le squelette du cadre est en place, en principe, la communauté/l'industrie peut paralléliser à travers de nombreux domaines différents, ce qui est excitant.
Dernière pensée - personnellement et à long terme, je suis optimiste sur les environnements et les interactions agentiques mais je suis pessimiste sur l'apprentissage par renforcement spécifiquement. Je pense que les fonctions de récompense sont super suspectes, et je pense que les humains n'utilisent pas l'apprentissage par renforcement pour apprendre (peut-être le font-ils pour certaines tâches motrices, etc., mais pas pour des tâches de résolution de problèmes intellectuels). Les humains utilisent différents paradigmes d'apprentissage qui sont significativement plus puissants et efficaces en échantillonnage et qui n'ont pas encore été correctement inventés et mis à l'échelle, bien que des esquisses et des idées précoces existent (comme juste un exemple, l'idée de "l'apprentissage par prompt système", déplaçant la mise à jour vers des tokens/contextes et non des poids et distillant éventuellement vers des poids comme un processus séparé un peu comme le sommeil le fait).
2,68K
Meilleurs
Classement
Favoris