OLMo 2 ist ein SOTA-Web-Rewriter??
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2518. Aug., 22:57
1/Das Pretraining stößt an eine Datenwand; die Skalierung von Roh-Webdaten allein führt zu abnehmenden Erträgen. Heute teilt @datologyai BeyondWeb, unseren Ansatz für synthetische Daten und alle Erkenntnisse aus der Skalierung auf Billionen von Tokens🧑🏼‍🍳 - 3B LLMs schlagen 8B Modelle🚀 - Pareto-Frontier für Leistung
46,22K