¡Presentamos el informe técnico del GLM-4.5! 👇 Este trabajo demuestra cómo desarrollamos modelos que sobresalen en el razonamiento, la codificación y las tareas agenciales a través de un paradigma de entrenamiento único de múltiples etapas. Las innovaciones clave incluyen la iteración de modelos expertos con autodestilación para unificar capacidades, un modo de razonamiento híbrido para la resolución dinámica de problemas y un plan de estudios de aprendizaje por refuerzo basado en la dificultad.
140.88K