Een ander SOTA open source model 👍 Met 355B parameters (32B actieve MoE) is het iets kleiner dan sommige van de ~1T modellen die we hebben gezien. Voor zover ik weet zeggen ze niet welke hardware is gebruikt om dit model te trainen, maar ze hebben 23T training tokens gebruikt. Als ik het goed heb, zijn zowel Alibaba als Tencent investeerders in een startup in Beijing.
Z.ai
Z.ai11 aug, 11:43
De GLM-4.5 technische rapport presenteren!👇 Dit werk toont aan hoe we modellen hebben ontwikkeld die uitblinken in redeneren, coderen en agenttaken door middel van een unieke, multi-fase trainingsparadigma. Belangrijke innovaties zijn onder andere expert modeliteratie met zelfdistillatie om capaciteiten te verenigen, een hybride redeneermodus voor dynamisch probleemoplossend vermogen, en een moeilijkheidsgebaseerd curriculum voor versterkend leren.
7K