OLMo 2 è un riscrittore web SOTA??
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2518 ago, 22:57
1/Il preaddestramento sta raggiungendo un muro di dati; scalare i dati grezzi del web da solo porta a rendimenti decrescenti. Oggi @datologyai condivide BeyondWeb, il nostro approccio ai dati sintetici e tutte le lezioni apprese dal portarlo a trilioni di token🧑🏼‍🍳 - I modelli LLM da 3B superano quelli da 8B🚀 - Frontiera di Pareto per le prestazioni
46,22K