Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un alt model 👍 open source SOTA
La 355B parametri (32B MoE activ) este puțin mai mic decât unele dintre modelele ~1T pe care le-am văzut.
AFAIK nu spun ce hardware a fost folosit pentru a antrena acest model, dar au folosit jetoane de antrenament 23T.
IIUC atât Alibaba, cât și Tencent sunt investitori în care este un startup din Beijing.

11 aug., 11:43
Vă prezentăm raportul tehnic GLM-4.5! 👇
Această lucrare demonstrează modul în care am dezvoltat modele care excelează în raționament, codificare și sarcini agentice printr-o paradigmă unică de antrenament în mai multe etape.
Inovațiile cheie includ iterația modelului expert cu auto-distilare pentru a unifica capabilitățile, un mod de raționament hibrid pentru rezolvarea dinamică a problemelor și un curriculum de învățare prin întărire bazat pe dificultate.

6,8K
Limită superioară
Clasament
Favorite