Hij is Arthur Mensch, oprichter van Mistral.
Dit is zorgwekkend wat betreft de staat van zaken over hoeveel mensen deze keynote hebben bijgewoond.
Het is zeer waarschijnlijk dat dit zal gebeuren als je echte bouwers beperkt en alleen bureaucraten + <invite-only> grote broers toestaat. Pathetisch.
ze hebben GLM-5 gebouwd zonder te leunen op grote NVIDIA-clusters, maar voornamelijk op binnenlandse Chinese hardware, die minder volwassen is als ecosysteem. Interessant genoeg hebben ze hier echt slim gespeeld met optimalisaties over quantisatie, kernels, asynchrone planning, parallelisme, enz.
De GLM-5 Technisch Rapport presenteren!
Na de lancering van GLM-5 tillen we het doek op over hoe het is gebouwd. Belangrijke innovaties zijn onder andere:
- DSA Adoptie: Vermindert aanzienlijk de trainings- en inferentiekosten terwijl de lange-context trouw behouden blijft
- Asynchrone RL Infrastructuur: Verbetert drastisch de efficiëntie na training door generatie van training te ontkoppelen
- Agent RL Algoritmen: Stelt het model in staat om effectiever te leren van complexe, lange-horizon interacties
Door deze innovaties bereikt GLM-5 SOTA-prestaties onder open-source modellen, met bijzonder sterke resultaten in real-world software engineering taken.