1/Il preaddestramento sta raggiungendo un muro di dati; scalare i dati grezzi del web da solo porta a rendimenti decrescenti. Oggi @datologyai condivide BeyondWeb, il nostro approccio ai dati sintetici e tutte le lezioni apprese dal portarlo a trilioni di token🧑🏼‍🍳 - I modelli LLM da 3B superano quelli da 8B🚀 - Frontiera di Pareto per le prestazioni
154,46K