1/Pretraining napotyka na ścianę danych; skalowanie surowych danych z sieci prowadzi do malejących zwrotów. Dziś @datologyai dzieli się BeyondWeb, naszym podejściem do danych syntetycznych i wszystkimi wnioskami z jego skalowania do bilionów tokenów🧑🏼‍🍳 - Modele LLM 3B przewyższają modele 8B🚀 - Granica Pareto dla wydajności
154,47K