OLMo 2 - це веб-рерайтер SOTA??
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'2518 серп., 22:57
1/Попередня підготовка – це удар об стіну даних; Масштабування необроблених веб-даних саме по собі призводить до зменшення віддачі. Сьогодні @datologyai ділиться BeyondWeb, нашим підходом до синтетичних даних і всіма уроками від їх масштабування до трильйонів токенів🧑🏼 🍳 - 3B LLM перевершують моделі🚀 8B - Парето-рубіж за перформансом
46,22K