Hän on Arthur Mensch, Mistralin perustaja.
On huolestuttavaa, kuinka moni osallistui tähän pääpuheenvuoroon.
Se on hyvin todennäköistä, jos rajoitat varsinaisia rakentajia ja annat vain byrokraatteja + <invite-only> isoveljiä. Säälittävää.
he rakensivat GLM-5:n ilman suuria NVIDIA-klustereita, vaan pääasiassa kotimaiselle kiinalaiselle laitteistolle, joka on vähemmän kypsä ekosysteeminä, ja mielenkiintoista kyllä, he toimivat todella fiksuina optimoinnissa kvantisoinnin, ytimien, asynkronisen ajoituksen, rinnakkaisuuden jne. osalta.
Esittelemme GLM-5:n teknisen raportin!
GLM-5:n laukaisun jälkeen vedämme verhoa sen rakentamisen tavasta. Keskeisiä innovaatioita ovat:
- DSA:n käyttöönotto: Vähentää merkittävästi koulutus- ja päättelykustannuksia säilyttäen samalla pitkän kontekstin tarkkuuden
- Asynkroninen RL-infrastruktuuri: Parantaa merkittävästi koulutuksen jälkeistä tehokkuutta irrottamalla generoinnin koulutuksesta
- Agentti RL -algoritmit: Mahdollistaa mallin oppimisen monimutkaisista, pitkän aikavälin vuorovaikutuksista tehokkaammin
Näiden innovaatioiden ansiosta GLM-5 saavuttaa SOTA-suorituskyvyn avoimen lähdekoodin malleissa, erityisesti vahvoilla tuloksillä käytännön ohjelmistokehitystehtävissä.