Un alt model 👍 open source SOTA La 355B parametri (32B MoE activ) este puțin mai mic decât unele dintre modelele ~1T pe care le-am văzut. AFAIK nu spun ce hardware a fost folosit pentru a antrena acest model, dar au folosit jetoane de antrenament 23T. IIUC atât Alibaba, cât și Tencent sunt investitori în care este un startup din Beijing.
Z.ai
Z.ai11 aug., 11:43
Vă prezentăm raportul tehnic GLM-4.5! 👇 Această lucrare demonstrează modul în care am dezvoltat modele care excelează în raționament, codificare și sarcini agentice printr-o paradigmă unică de antrenament în mai multe etape. Inovațiile cheie includ iterația modelului expert cu auto-distilare pentru a unifica capabilitățile, un mod de raționament hibrid pentru rezolvarea dinamică a problemelor și un curriculum de învățare prin întărire bazat pe dificultate.
6,8K