OLMo 2 är SOTA webb rewriter??
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2518 aug. 22:57
1/Förträning träffar en datavägg; Enbart skalning av rå webbdata leder till minskande avkastning. Idag delar @datologyai med oss av BeyondWeb, vår syntetiska datametod och alla lärdomar från att skala den till biljoner tokens🧑🏼 🍳 - 3B LLM slår 8B-modeller🚀 - Pareto frontier för prestanda
46,27K