Otro modelo 👍 de código abierto de SOTA Con 355B parámetros (32B activo MoE) es un poco más pequeño que algunos de los modelos ~1T que hemos visto. AFAIK no dicen qué hardware se usó para entrenar este modelo, pero usaron tokens de entrenamiento 23T. IIUC tanto Alibaba como Tencent son inversores en la que es una startup en Beijing.
Z.ai
Z.ai11 ago, 11:43
¡Presentamos el informe técnico del GLM-4.5! 👇 Este trabajo demuestra cómo desarrollamos modelos que sobresalen en el razonamiento, la codificación y las tareas agenciales a través de un paradigma de entrenamiento único de múltiples etapas. Las innovaciones clave incluyen la iteración de modelos expertos con autodestilación para unificar capacidades, un modo de razonamiento híbrido para la resolución dinámica de problemas y un plan de estudios de aprendizaje por refuerzo basado en la dificultad.
6.99K