OLMo 2 é um reescritor web de ponta??
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2518/08, 22:57
1/ O pré-treinamento está enfrentando um limite de dados; escalar apenas dados brutos da web leva a retornos decrescentes. Hoje, @datologyai compartilha o BeyondWeb, nossa abordagem de dados sintéticos e todas as lições aprendidas ao escalá-lo para trilhões de tokens🧑🏼‍🍳 - Modelos LLM de 3B superam modelos de 8B🚀 - Fronteira de Pareto para desempenho
46,23K