Un autre modèle open source SOTA 👍 Avec 355 milliards de paramètres (32 milliards de MoE actifs), il est un peu plus petit que certains des modèles d'environ 1 trillion que nous avons vus. À ma connaissance, ils ne disent pas quel matériel a été utilisé pour entraîner ce modèle, mais ils ont utilisé 23 trillions de tokens d'entraînement. Si je comprends bien, Alibaba et Tencent sont tous deux investisseurs dans cette startup à Pékin.
Z.ai
Z.ai11 août, 11:43
Presenting the GLM-4.5 technical report!👇 This work demonstrates how we developed models that excel at reasoning, coding, and agentic tasks through a unique, multi-stage training paradigm. Key innovations include expert model iteration with self-distillation to unify capabilities, a hybrid reasoning mode for dynamic problem-solving, and a difficulty-based reinforcement learning curriculum.
7K