1/Førtrening treffer en datavegg; Skalering av rådata alene fører til avtagende avkastning. I dag deler @datologyai BeyondWeb, vår syntetiske datatilnærming og all læringen fra å skalere den til billioner av tokens🧑🏼 🍳 - 3B LLM-er slår 8B-modeller🚀 - Pareto-grense for ytelse
154,48K