1 / El preentrenamiento está golpeando un muro de datos; El escalado de los datos web sin procesar por sí solo conduce a rendimientos decrecientes. Hoy @datologyai comparte BeyondWeb, nuestro enfoque de datos sintéticos y todos los aprendizajes de escalarlo a billones de tokens🧑🏼 🍳 - Los LLM 3B superan a los modelos🚀 8B - Frontera de Pareto por rendimiento
154.47K