Un alt model 👍 open source SOTA La 355B parametri (32B MoE activ) este puțin mai mic decât unele dintre modelele ~1T pe care le-am văzut. AFAIK nu spun ce hardware a fost folosit pentru a antrena acest model, dar au folosit jetoane de antrenament 23T. IIUC atât Alibaba, cât și Tencent sunt investitori în care este un startup din Beijing.
Z.ai
Z.ai11 aug. 2025
Vă prezentăm raportul tehnic GLM-4.5! 👇 Această lucrare demonstrează modul în care am dezvoltat modele care excelează în raționament, codificare și sarcini agentice printr-o paradigmă unică de antrenament în mai multe etape. Inovațiile cheie includ iterația modelului expert cu auto-distilare pentru a unifica capabilitățile, un mod de raționament hibrid pentru rezolvarea dinamică a problemelor și un curriculum de învățare prin întărire bazat pe dificultate.
7K