¿OLMo 2 es un reescritor web de última generación?
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2518 ago, 22:57
1/El preentrenamiento está chocando contra un muro de datos; escalar solo datos web en bruto conduce a rendimientos decrecientes. Hoy @datologyai comparte BeyondWeb, nuestro enfoque de datos sintéticos y todas las lecciones aprendidas al escalarlo a billones de tokens🧑🏼‍🍳 - Los LLM de 3B superan a los modelos de 8B🚀 - Frontera de Pareto para el rendimiento
46,24K