OLMo 2 هو إعادة كتابة الويب SOTA ؟؟
Pratyush Maini @ICLR'25
Pratyush Maini @ICLR'25‏18 أغسطس، 22:57
1 / التدريب المسبق يصطدم بجدار البيانات ؛ يؤدي توسيع نطاق بيانات الويب الأولية وحدها إلى تناقص العوائد. اليوم @datologyai تشارك BeyondWeb ، ونهج البيانات التركيبية الخاص بنا وجميع الدروس المستفادة من توسيع نطاقها إلى تريليونات الرموز🧑🏼 🍳 - تغلب 3B LLMs على نماذج🚀 8B - حدود باريتو للأداء
‏‎46.23‏K