Un altro modello open source SOTA 👍 Con 355 miliardi di parametri (32 miliardi di MoE attivi) è un po' più piccolo di alcuni dei modelli da ~1T che abbiamo visto. A quanto ne so, non dicono quale hardware è stato utilizzato per addestrare questo modello, ma hanno utilizzato 23T di token di addestramento. Se ho capito bene, sia Alibaba che Tencent sono investitori in una startup a Pechino.
Z.ai
Z.ai11 ago, 11:43
Presentazione del rapporto tecnico GLM-4.5!👇 Questo lavoro dimostra come abbiamo sviluppato modelli che eccellono nel ragionamento, nella codifica e nei compiti agentici attraverso un paradigma di formazione unico e multi-fase. Le principali innovazioni includono l'iterazione del modello esperto con auto-distillazione per unificare le capacità, una modalità di ragionamento ibrida per la risoluzione dinamica dei problemi e un curriculum di apprendimento rinforzato basato sulla difficoltà.
6,89K