1/Le préentraînement atteint un mur de données ; se contenter de l'échelle des données brutes du web entraîne des rendements décroissants. Aujourd'hui, @datologyai partage BeyondWeb, notre approche de données synthétiques et tous les enseignements tirés de son échelle à des trillions de tokens🧑🏼‍🍳 - Les LLM de 3B battent les modèles de 8B🚀 - Frontière de Pareto pour la performance
154,47K