OLMo 2 is SOTA web herschrijver??
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2518 aug, 22:57
1/Pretraining stuit op een datamuur; het schalen van alleen ruwe webdata leidt tot afnemende rendementen. Vandaag deelt @datologyai BeyondWeb, onze synthetische data-aanpak en alle lessen die we hebben geleerd van het schalen naar triljoenen tokens🧑🏼‍🍳 - 3B LLM's verslaan 8B modellen🚀 - Pareto-grens voor prestaties
46,23K