Han er Arthur Mensch, grunnleggeren av Mistral.
Dette er bekymringsfullt hvor mange som deltok på denne hovedtalen.
Det er svært sannsynlig å skje hvis du begrenser faktiske byggere og lar bare byråkrater + <invite-only> storebrødre være patetiske.
de bygde GLM-5 uten å lene seg på store NVIDIA-klynger, men mest på kinesisk innenlandsk maskinvare som er mindre modent som økosystem, og interessant nok spilte de veldig smart her med optimaliseringer over kvantisering, kjerner, asynkron planlegging, parallellisme osv.
Vi presenterer GLM-5 tekniske rapport!
Etter lanseringen av GLM-5 trekker vi til side for hvordan den ble bygget. Viktige innovasjoner inkluderer:
- DSA-adopsjon: Reduserer opplærings- og inferenskostnader betydelig samtidig som langtids-konteksttrofasthet bevares
- Asynkron RL-infrastruktur: Forbedrer effektiviteten etter trening drastisk ved å skille generering fra trening
- Agent RL-algoritmer: Gjør det mulig for modellen å lære mer effektivt fra komplekse, langhorisontale interaksjoner
Gjennom disse innovasjonene oppnår GLM-5 SOTA-ytelse blant åpne kildekode-modeller, med spesielt sterke resultater i virkelige programvareutviklingsoppgaver.