Il est Arthur Mensch, fondateur de Mistral.
C'est préoccupant l'état des choses concernant le nombre de personnes qui ont assisté à cette keynote.
Il est très probable que cela se produise si vous restreignez les véritables bâtisseurs et ne laissez entrer que des bureaucrates + <invite-only> gros bonnets. Pathétique.
ils ont construit GLM-5 sans s'appuyer sur de grands clusters NVIDIA mais principalement sur du matériel chinois domestique qui est moins mature en tant qu'écosystème et, de manière intéressante, ils ont joué très intelligemment ici avec des optimisations sur la quantification, les noyaux, la planification asynchrone, le parallélisme, etc.
Présentation du Rapport Technique GLM-5 !
Après le lancement de GLM-5, nous levons le voile sur la manière dont il a été construit. Les innovations clés incluent :
- Adoption de DSA : Réduit considérablement les coûts de formation et d'inférence tout en préservant la fidélité du long contexte
- Infrastructure RL Asynchrone : Améliore considérablement l'efficacité post-formation en découplant la génération de la formation
- Algorithmes RL d'Agent : Permet au modèle d'apprendre plus efficacement à partir d'interactions complexes et à long terme
Grâce à ces innovations, GLM-5 atteint des performances SOTA parmi les modèles open-source, avec des résultats particulièrement solides dans des tâches d'ingénierie logicielle du monde réel.