Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un altro modello open source SOTA 👍
Con 355 miliardi di parametri (32 miliardi di MoE attivi) è un po' più piccolo di alcuni dei modelli da ~1T che abbiamo visto.
A quanto ne so, non dicono quale hardware è stato utilizzato per addestrare questo modello, ma hanno utilizzato 23T di token di addestramento.
Se ho capito bene, sia Alibaba che Tencent sono investitori in una startup a Pechino.

11 ago, 11:43
Presentazione del rapporto tecnico GLM-4.5!👇
Questo lavoro dimostra come abbiamo sviluppato modelli che eccellono nel ragionamento, nella codifica e nei compiti agentici attraverso un paradigma di formazione unico e multi-fase.
Le principali innovazioni includono l'iterazione del modello esperto con auto-distillazione per unificare le capacità, una modalità di ragionamento ibrida per la risoluzione dinamica dei problemi e un curriculum di apprendimento rinforzato basato sulla difficoltà.

6,89K
Principali
Ranking
Preferiti