Outro modelo 👍 de código aberto SOTA Nos parâmetros 355B (32B MoE ativo), é um pouco menor do que alguns dos modelos ~ 1T que vimos. AFAIK, eles não dizem qual hardware foi usado para treinar este modelo, mas usaram tokens de treinamento 23T. IIUC, Alibaba e Tencent são investidores em que é uma startup em Pequim.
Z.ai
Z.ai11 de ago. de 2025
Presenting the GLM-4.5 technical report!👇 This work demonstrates how we developed models that excel at reasoning, coding, and agentic tasks through a unique, multi-stage training paradigm. Key innovations include expert model iteration with self-distillation to unify capabilities, a hybrid reasoning mode for dynamic problem-solving, and a difficulty-based reinforcement learning curriculum.
7K