المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
الحكمة السائدة هي أن الحوسبة هي العامل الأكثر أهمية للتدريب على الذكاء الاصطناعي الحدودي. نعتقد أن هذا خطأ: البيانات هي العنصر الأكثر تكلفة وأهمية في تدريب الذكاء الاصطناعي.
قمنا بجمع تقديرات الإيرادات لشركات تصنيف البيانات الرئيسية ومقارنتها بتكلفة الحوسبة الهامشية لتدريب أفضل النماذج في عام 2024. تظهر تقديراتنا أن تصنيف البيانات أعلى ~ 3 مرات من حساب التدريب الهامشي.
1/8

يشرح منشور مدونتنا الأخير التكلفة الحقيقية لتدريب النماذج الرئيسية اليوم بأرقام ملموسة ودراسات حالة
التحليل الكامل موجود على Substack:
2/8
لمحة عن عام 2024: قمنا بحساب الإيرادات السنوية لشركات الملصقات الكبرى (Scale و Urge و Mercor و Labelbox و ...) وقارناها بإنفاق الحوسبة الهامشي لتدريب GPT-4o و Sonnet-3.5 و Mistral-Large و Grok-2 و Llama-3-405B. النتيجة: تبلغ تكاليف وضع العلامات حوالي 3 أضعاف تكاليف الحوسبة الهامشية.
3/8
من عام 2023 إلى عام 2024 ، وجدنا قفزة قدرها 88 ضعفا في صناعة وضع العلامات على البيانات ، بينما ارتفعت تكاليف حوسبة التدريب بمقدار 1.3 مرة فقط. هذا معدل نمو ~ 70 مرة أسرع لتصنيف البيانات
لاحظ أننا لا نتوقع أن تستمر الاتجاهات في عام 2025 وما بعده ، حيث أن معظم النمو يأتي من Mercor ، وبالتالي فإن معدلات النمو ستكون أقل ، حتى مع زيادة المبلغ الإجمالي لتكاليف البيانات
4/8
بالإضافة إلى الإيرادات ، احتاجت MiniMax-M1 إلى < مليون دولار في الحوسبة للوصول إلى جودة Claude-Opus-4 ، ومع ذلك فإن تنظيم مجموعة بيانات RL مع 140 ألف تعليق توضيحي بشري سيكلف ~ 14 مليون دولار ، أي 28 ضعف حساب التدريب
5/8
وبالمثل ، تطابقت SkyRL-SQL مع GPT-4o على النص إلى SQL مع 360 دولارا فقط من حساب التدريب ، لكن 600 استعلام مشروحة من قبل الخبراء المستخدمة في فترة ما بعد التدريب تكلف ~ 60 ألف دولار
6/8
نحن نشجع المؤسسات التي تتعقب مدخلات الذكاء الاصطناعي على تتبع تكاليف البيانات البشرية أيضا ، لأننا نعتقد أن هذا أمر بالغ الأهمية لفهم تقدم الذكاء الاصطناعي
7/8
شارك في الكتابة مع @maxYuxuanZhu
8/8
126.86K
الأفضل
المُتصدِّرة
التطبيقات المفضلة