Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Un desbloqueo masivo del modelo de fundación de código abierto por @_xjdr
XJDR es un científico loco, así que me tomó varios intentos realmente entenderlo, y aún podría no apreciar completamente todo el resultado.
Normalmente, si quieres entrenar un modelo base completamente nuevo desde cero, necesitas un montón de GPUs solo para iniciar un entrenamiento serio. Es caro.
Uno de los tipos más difíciles de entrenar es el diseño Mixture of Experts estilo DeepSeek. Es poderoso, pero el sistema de enrutamiento y la configuración de entrenamiento son tan delicados que las pruebas a pequeña escala a menudo se desmoronan. Así que terminas necesitando un gran clúster solo para aprender algo, y cuando una ejecución falla, no puedes saber si tu idea estaba equivocada o si la configuración simplemente se rompió, así que la investigación muere y no aprendes nada.
XJDR está liberando nmoe, una fábrica de entrenamiento lista para usar cableada de la manera en que lo haría un experto, específicamente para que esta clase de modelos pueda ser entrenada e investigada en una sola máquina sin constantes fallos. Los pequeños experimentos se comportan como un entrenamiento real, así que puedes obtener un sí o un no limpio antes de gastar ocho cifras y meses de tiempo.
En realidad, las personas pueden realizar pruebas rápidas y baratas donde cambian una cosa a la vez, como cómo funcionan los enrutamientos del modelo entre especialistas, cómo aprende (receta de entrenamiento), qué datos le alimentas y cómo obtienes más calidad por dólar. Básicamente, estás sometiendo a prueba nuevas ideas para mejores modelos base de la misma manera que harías una prueba A/B en un producto, pero puedes hacerlo fuera de un gran laboratorio.
El impacto neto es una iteración más rápida y un ahorro de costos importante, además de que más equipos pueden construir modelos de fundación nuevos de manera realista. Eso puede significar un mejor modelo de clase DeepSeek, modelos de estilo especialista completamente nuevos, y mucha más competencia e investigación abierta porque la barrera de entrada baja drásticamente y más de los avances ocurren en público.
¡Estén atentos, está liberando la mayor parte de esto!
Felicidades @_xjdr. Estamos muy felices de apoyarte y ser una pequeña parte de tu historia.
Parte superior
Clasificación
Favoritos
