OLMo 2 este rescriitorul web SOTA??
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2518 aug., 22:57
1/Preantrenamentul se lovește de un perete de date; Scalarea datelor web brute duce la randamente în scădere. Astăzi @datologyai împărtășește BeyondWeb, abordarea noastră de date sintetice și toate învățămintele de la scalarea lor la trilioane de token-uri🧑🏼 🍳 - LLM-urile 3B înving modelele🚀 8B - Frontiera Pareto pentru performanță
46,23K