En annen SOTA åpen kildekode-modell 👍 Ved 355B-parametere (32B aktiv MoE) er den litt mindre enn noen av ~1T-modellene vi har sett. AFAIK de sier ikke hvilken maskinvare som ble brukt til å trene denne modellen, men de brukte 23T-treningstokens. IIUC både Alibaba og Tencent er investorer i som er en oppstart i Beijing.
Z.ai
Z.ai11. aug., 11:43
Presenterer den tekniske rapporten for GLM-4.5! 👇 Dette arbeidet viser hvordan vi utviklet modeller som utmerker seg ved resonnement, koding og agentiske oppgaver gjennom et unikt treningsparadigme i flere trinn. Viktige innovasjoner inkluderer iterasjon av ekspertmodeller med selvdestillasjon for å forene evner, en hybrid resonneringsmodus for dynamisk problemløsning og en vanskelighetsbasert læreplan for forsterkende læring.
6,8K