1/预训练正面临数据壁垒;单靠扩展原始网络数据会导致收益递减。今天 @datologyai 分享了 BeyondWeb,我们的合成数据方法以及从将其扩展到万亿个标记中获得的所有经验🧑🏼‍🍳 - 30亿 LLM 超越 80亿模型🚀 - 性能的帕累托前沿
154.47K