Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un alt model 👍 open source SOTA
La 355B parametri (32B MoE activ) este puțin mai mic decât unele dintre modelele ~1T pe care le-am văzut.
AFAIK nu spun ce hardware a fost folosit pentru a antrena acest model, dar au folosit jetoane de antrenament 23T.
IIUC atât Alibaba, cât și Tencent sunt investitori în care este un startup din Beijing.

11 aug. 2025
Vă prezentăm raportul tehnic GLM-4.5! 👇
Această lucrare demonstrează modul în care am dezvoltat modele care excelează în raționament, codificare și sarcini agentice printr-o paradigmă unică de antrenament în mai multe etape.
Inovațiile cheie includ iterația modelului expert cu auto-distilare pentru a unifica capabilitățile, un mod de raționament hibrid pentru rezolvarea dinamică a problemelor și un curriculum de învățare prin întărire bazat pe dificultate.

7K
Limită superioară
Clasament
Favorite