¡Presentando el informe técnico GLM-4.5!👇 Este trabajo demuestra cómo desarrollamos modelos que sobresalen en razonamiento, codificación y tareas agenciales a través de un paradigma de entrenamiento único y en múltiples etapas. Las innovaciones clave incluyen la iteración de modelos expertos con auto-destilación para unificar capacidades, un modo de razonamiento híbrido para la resolución dinámica de problemas y un currículo de aprendizaje por refuerzo basado en la dificultad.
142,6K