OLMo 2 est un réécrivain web de pointe ??
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2518 août, 22:57
1/Le préentraînement atteint un mur de données ; se contenter de l'échelle des données brutes du web entraîne des rendements décroissants. Aujourd'hui, @datologyai partage BeyondWeb, notre approche de données synthétiques et tous les enseignements tirés de son échelle à des trillions de tokens🧑🏼‍🍳 - Les LLM de 3B battent les modèles de 8B🚀 - Frontière de Pareto pour la performance
46,23K