OLMo 2 er SOTA-nettomskriver??
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2518. aug., 22:57
1/Førtrening treffer en datavegg; Skalering av rådata alene fører til avtagende avkastning. I dag deler @datologyai BeyondWeb, vår syntetiske datatilnærming og all læringen fra å skalere den til billioner av tokens🧑🏼 🍳 - 3B LLM-er slår 8B-modeller🚀 - Pareto-grense for ytelse
46,22K