1/Попередня підготовка – це удар об стіну даних; Масштабування необроблених веб-даних саме по собі призводить до зменшення віддачі. Сьогодні @datologyai ділиться BeyondWeb, нашим підходом до синтетичних даних і всіма уроками від їх масштабування до трильйонів токенів🧑🏼 🍳 - 3B LLM перевершують моделі🚀 8B - Парето-рубіж за перформансом
154,47K