1/Das Pretraining stößt an eine Datenwand; die Skalierung von Roh-Webdaten allein führt zu abnehmenden Erträgen. Heute teilt @datologyai BeyondWeb, unseren Ansatz für synthetische Daten und alle Erkenntnisse aus der Skalierung auf Billionen von Tokens🧑🏼‍🍳 - 3B LLMs schlagen 8B Modelle🚀 - Pareto-Frontier für Leistung
154,47K