Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Otro modelo 👍 de código abierto de SOTA
Con 355B parámetros (32B activo MoE) es un poco más pequeño que algunos de los modelos ~1T que hemos visto.
AFAIK no dicen qué hardware se usó para entrenar este modelo, pero usaron tokens de entrenamiento 23T.
IIUC tanto Alibaba como Tencent son inversores en la que es una startup en Beijing.

11 ago, 11:43
¡Presentamos el informe técnico del GLM-4.5! 👇
Este trabajo demuestra cómo desarrollamos modelos que sobresalen en el razonamiento, la codificación y las tareas agenciales a través de un paradigma de entrenamiento único de múltiples etapas.
Las innovaciones clave incluyen la iteración de modelos expertos con autodestilación para unificar capacidades, un modo de razonamiento híbrido para la resolución dinámica de problemas y un plan de estudios de aprendizaje por refuerzo basado en la dificultad.

6.99K
Populares
Ranking
Favoritas