متحمس لإصدار مستودع جديد: nanochat! (إنها من بين أكثر الأشياء اضطرابا التي كتبتها). على عكس repo nanoGPT المماثل السابق الذي غطى التدريب المسبق فقط ، فإن nanochat هو الحد الأدنى من خط أنابيب التدريب / الاستدلال الكامل ، من البداية ، لاستنساخ ChatGPT بسيط في قاعدة بيانات واحدة ذات الحد الأدنى من التبعية. يمكنك تشغيل صندوق GPU السحابي ، وتشغيل برنامج نصي واحد ، وفي أقل من 4 ساعات بعد ذلك ، يمكنك التحدث إلى LLM الخاص بك في واجهة مستخدم ويب تشبه ChatGPT. يزن ~ 8,000 سطر من التعليمات البرمجية النظيفة تماما من أجل: - تدريب الرمز المميز باستخدام تطبيق Rust جديد - قم بتدريب مسبق على محول LLM على FineWeb ، وقم بتقييم درجة CORE عبر عدد من المقاييس - تدريب منتصف على محادثات مساعد المستخدم من SmolTalk ، وأسئلة الاختيار من متعدد ، واستخدام الأداة. - SFT ، تقييم نموذج الدردشة على المعرفة العالمية الاختيار من متعدد (ARC-E / C ، MMLU) ، الرياضيات (GSM8K) ، الكود (HumanEval) - RL النموذج اختياريا على GSM8K مع "GRPO" - الاستدلال الفعال على النموذج في محرك مع ذاكرة تخزين مؤقت KV ، وملء / فك تشفير بسيط ، واستخدام أداة (مترجم Python في وضع الحماية خفيف الوزن) ، والتحدث معه عبر CLI أو WebUI الشبيه ب ChatGPT. - اكتب بطاقة تقرير واحدة لخفض السعر ، وتلخيص ولعب كل شيء. حتى مقابل تكلفة منخفضة تصل إلى ~ 100 دولار (~ 4 ساعات على عقدة 8XH100) ، يمكنك تدريب استنساخ ChatGPT صغير يمكنك التحدث إليه نوعا ما ، والذي يمكنه كتابة القصص / القصائد والإجابة على أسئلة بسيطة. حوالي ~ 12 ساعة تتجاوز مقياس GPT-2 CORE. مع تقدمك نحو ~ 1000 دولار (~ 41.6 ساعة من التدريب) ، سرعان ما يصبح أكثر تماسكا ويمكنه حل مشكلات الرياضيات / التعليمات البرمجية البسيطة وإجراء اختبارات الاختيار من متعدد. على سبيل المثال ، نموذج عمق 30 تم تدريبه لمدة 24 ساعة (هذا يساوي تقريبا FLOPs من GPT-3 Small 125M و 1/1000 من GPT-3) يدخل في 40 ثانية على MMLU و 70 ثانية على ARC-Easy ، و 20 ثانية على GSM8K ، إلخ. هدفي هو الحصول على مكدس "خط الأساس القوي" الكامل في مستودع واحد متماسك ، بسيط ، قابل للقراءة ، قابل للاختراق ، قابل للتشعب إلى أقصى حد. سيكون nanochat هو مشروع تتويج LLM101n (الذي لا يزال قيد التطوير). أعتقد أن لديها أيضا القدرة على النمو لتصبح تسخير بحثي ، أو معيارا ، مشابها ل nanoGPT قبله. لم يتم الانتهاء منه أو ضبطه أو تحسينه بأي حال من الأحوال (في الواقع أعتقد أنه من المحتمل أن يكون هناك قدر كبير من الفاكهة المعلقة) ، لكنني أعتقد أنه في مكان يكون فيه الهيكل العظمي العام على ما يرام بما يكفي بحيث يمكن أن يرتفع على GitHub حيث يمكن تحسين جميع أجزائه. يوجد رابط إلى الريبو وإرشادات تفصيلية لتشغيل nanochat السريع في الرد.
مستودع GitHub: الكثير من الإرشادات التفصيلية والتقنية: مثال على المحادثة مع دردشة nanochat لمدة 4 ساعات بقيمة 100 دولار أمريكي في WebUI. انها... :) مسلية الطرز الأكبر حجما (على سبيل المثال عمق 12 ساعة 26 أو عمق 24 ساعة 30) تصبح أكثر تماسكا بسرعة.
ومثال على بعض المقاييس الموجزة التي تنتجها سرعة 100 دولار في بطاقة التقرير للبدء. قاعدة الكود الحالية تزيد قليلا عن 8000 سطر ، لكنني حاولت إبقائها نظيفة ومعلقة جيدا. الآن يأتي الجزء الممتع - الضبط وتسلق التلال.
‏‎2.4‏M