souffrez-vous de fatigue liée aux chatbots ? frustré que la singularité ait été annulée ? cherchez-vous quelque chose de nouveau pour vous redonner espoir ? voici mon plan délirant, mais "hé, ça a un sens" pour construire une super-intelligence dans mon petit laboratoire de recherche indépendant. (remarque : je vais échanger la précision contre la pédagogie) d'abord, un contexte : je suis un gars de 33 ans qui a passé les 22 dernières années à programmer. au fil du temps, j'ai posé de nombreuses questions sur la nature de l'informatique et accumulé des... insights plutôt... particuliers. il y a quelques années, j'ai construit HVM, un système capable d'exécuter des programmes dans un langage ésotérique appelé "Haskell" sur le GPU - oui, la même puce qui a rendu l'apprentissage profond possible et a déclenché tout ce cycle d'IA. mais comment Haskell est-il lié à l'IA ? eh bien, c'est une longue histoire. comme les anciens pourraient s'en souvenir, à l'époque, ce que nous appelions "IA" était... différent. il y a près de 3 décennies, pour la première fois, un ordinateur a battu le champion du monde d'échecs, suscitant de nombreux débats sur l'AGI et la singularité - tout comme aujourd'hui ! le système, nommé Deep Blue, était très différent des modèles que nous avons aujourd'hui. il n'utilisait pas de transformateurs. il n'utilisait pas de réseaux neuronaux du tout. en fait, il n'y avait pas de "modèle". c'était une pure "IA symbolique", ce qui signifie que c'était juste un vieil algorithme, qui scannait des milliards de mouvements possibles, plus vite et plus profondément que n'importe quel humain, nous battant par pure force brute. cela a suscité une vague de recherches prometteuses en IA symbolique. algorithmes évolutionnaires, graphes de connaissances, preuve automatique de théorèmes, solveurs SAT/SMT, solveurs de contraintes, systèmes experts, et bien plus encore. malheureusement, avec le temps, l'approche a rencontré un mur. les règles construites à la main ne se sont pas étendues, les systèmes symboliques n'étaient pas capables d'apprendre dynamiquement, et la bulle a éclaté. un nouvel hiver de l'IA a commencé. ce n'est que des années plus tard qu'un alignement curieux de facteurs a tout changé. les chercheurs ont dépoussiéré une vieille idée - les réseaux neuronaux - mais cette fois, ils avaient quelque chose de nouveau : les GPU. ces puces graphiques, à l'origine conçues pour le rendu de jeux vidéo, se sont révélées parfaites pour les multiplications de matrices massives que nécessitaient les réseaux neuronaux. soudain, ce qui prenait des semaines pouvait être fait en heures. l'apprentissage profond a explosé, et nous voilà aujourd'hui, avec des transformateurs qui mangent le monde. mais voici le truc : nous n'avons porté qu'une seule branche de l'IA sur les GPU - celle du connexionnisme, numérique. le côté symbolique ? il est toujours coincé à l'âge de pierre du CPU. Haskell est un langage spécial, car il unifie le langage des preuves (c'est-à-dire l'idiome que les mathématiciens utilisent pour exprimer des théorèmes) avec le langage de la programmation (c'est-à-dire ce que les développeurs utilisent pour construire des applications). cela le rend particulièrement adapté au raisonnement symbolique - le type exact de calcul que Deep Blue utilisait, mais maintenant nous pouvons l'exécuter massivement en parallèle sur du matériel moderne. (pour être plus précis, juste le parallélisme massif des GPU n'est pas la seule chose que HVM apporte à la table. il s'avère que cela entraîne également des gains de vitesse *asymptotiques* dans certains cas. et c'est une raison clé de croire en notre approche : les anciennes méthodes symboliques n'étaient pas seulement affamées de calcul. elles étaient exponentiellement lentes, dans un sens algorithmique. pas étonnant qu'elles n'aient pas fonctionné. elles n'avaient aucune chance.) ma thèse est simple : maintenant que je peux exécuter Haskell sur des GPU, et compte tenu de ce gain de vitesse asymptotique, je suis en mesure de ressusciter ces anciennes méthodes d'IA symbolique, de les faire évoluer de plusieurs ordres de grandeur et de voir ce qui se passe. peut-être, juste peut-être, l'une d'elles nous surprendra. notre premier jalon est déjà en cours : nous avons construit le programme/synthétiseur de preuves le plus rapide au monde, que j'appelle SupGen. ou NeoGen. ou QuickGen ? nous le publierons comme une mise à jour de notre langage "Bend", le rendant disponible au public vers la fin octobre. ensuite, plus tard cette année, nous l'utiliserons comme base pour un nouveau programme de recherche, cherchant une architecture symbolique pure qui peut réellement apprendre à partir de données et construire des généralisations - non pas par descente de gradient et rétropropagation, mais par raisonnement logique et synthèse de programmes. nos premières expériences seront très simples (pas très différentes de GPT-2), et le principal jalon serait d'avoir un "outil de complétion de prochain token" qui soit 100 % exempt de réseaux neuronaux. si cela fonctionne, cela pourrait être un bond révolutionnaire au-delà des transformateurs et de l'apprentissage profond, car c'est une approche entièrement nouvelle qui pourrait très probablement éliminer de nombreuses limitations héritées de GPT que les IA ont aujourd'hui. pas seulement des problèmes de tokenisation (comme les R dans fraise), mais des problèmes fondamentaux qui empêchent les GPT d'apprendre efficacement et de généraliser. délirant ? probablement valoir la peine d'essayer ? absolument (maintenant devinez combien cela a été généré par l'IA, et quel modèle j'ai utilisé)
37,63K