1/Предобучение сталкивается с проблемой данных; использование только сырых веб-данных приводит к убывающей отдаче. Сегодня @datologyai делится BeyondWeb, нашим подходом к синтетическим данным и всеми выводами от масштабирования до триллионов токенов🧑🏼‍🍳 - 3B LLMs превосходят 8B модели🚀 - Парато-фронт для производительности
154,48K