OLMo 2 to SOTA web rewriter??
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2518 sie, 22:57
1/Pretraining napotyka na ścianę danych; skalowanie surowych danych z sieci prowadzi do malejących zwrotów. Dziś @datologyai dzieli się BeyondWeb, naszym podejściem do danych syntetycznych i wszystkimi wnioskami z jego skalowania do bilionów tokenów🧑🏼‍🍳 - Modele LLM 3B przewyższają modele 8B🚀 - Granica Pareto dla wydajności
46,23K