Han är Arthur Mensch, grundare av Mistral.
Det är oroande hur många som deltog i denna huvudtalning.
Det är mycket sannolikt att det händer om du begränsar faktiska byggare och bara låter byråkrater + <invite-only> stora bröder. Patetiskt.
de byggde GLM-5 utan att luta sig mot stora NVIDIA-kluster utan mestadels på kinesisk inhemsk hårdvara som är mindre mogen som ekosystem, och intressant nog var de väldigt smarta här med optimeringar över kvantisering, kärnor, asynkron schemaläggning, parallellism osv.
Vi presenterar GLM-5:s tekniska rapport!
Efter uppskjutningen av GLM-5 drar vi undan ridån för hur den byggdes. Viktiga innovationer inkluderar:
- DSA-införande: Minskar utbildnings- och inferenskostnader avsevärt samtidigt som långtidskontexttrogenhet bevaras
- Asynkron RL-infrastruktur: Förbättrar drastiskt effektiviteten efter träning genom att koppla bort generering från träning
- Agent RL-algoritmer: Gör det möjligt för modellen att lära sig från komplexa, långhorisontiga interaktioner mer effektivt
Genom dessa innovationer uppnår GLM-5 SOTA-prestanda bland öppna källkodsmodeller, med särskilt starka resultat i verkliga mjukvaruutvecklingsuppgifter.