لقد قرأت للتو هذه الورقة الجديدة التي حطمت عقلي 🤯 تماما اكتشف الباحثون كيفية نقل محولات LoRA بين نماذج الذكاء الاصطناعي المختلفة تماما دون أي بيانات تدريب ، وهي تعمل بشكل أفضل من الطرق التي تتطلب مجموعات بيانات ضخمة. يطلق عليه TITOK ، وإليك الجزء البري: بدلا من نسخ كل شيء من النموذج المصدر ، فإنهم ينقلون فقط الرموز المميزة المهمة بالفعل. يفعلون ذلك عن طريق مقارنة النموذج مع وبدون LoRA للعثور على المكان الذي يضيف فيه المحول قيمة حقيقية. فكر في الأمر على النحو التالي: إذا كان النموذج المضبوط الخاص بك واثقا من رمز مميز ولكن النموذج الأساسي ليس كذلك ، فإن هذا الرمز المميز يحتوي على المعرفة التي تريد نقلها. النتائج مجنونة: + 8٪ أفضل من موديلات الفانيليا + 6٪ أفضل من تقطير المعرفة التقليدية + 4.4٪ أفضل من TransLoRA ويعمل عبر السيناريوهات البرية: → ميسترال إلى لاما (عائلات مختلفة) → طرازات 3B إلى 8B (أحجام مختلفة) → اللاما 2 إلى اللاما 3 (إصدارات مختلفة) الميزة القاتلة؟ لا حاجة لنماذج إضافية. يتطلب TransLoRA تدريب مميز منفصل فقط لتصفية البيانات التركيبية. يستخدم TITOK نموذج المصدر نفسه لتحديد الرموز المميزة المهمة. أكثر جنونا: يتعاملون مع الرموز المميزة المختلفة تلقائيا. عندما تقوم النماذج بتقسيم النص بشكل مختلف، تقوم الخوارزمية الخاصة بهم بمحاذاة الرموز المميزة ونشر درجات الأهمية عبر الفجوة. هذا ليس مجرد أكاديمية. في كل مرة يسقط فيها طراز جديد ، تصبح المحولات المضبوطة بدقة قديمة. تعني TITOK أنه يمكنك ترحيل تلك المعرفة التي تم الحصول عليها بشق الأنفس إلى أي عمود فقري جديد في غضون ساعات وليس أسابيع. لقد انتقلنا للتو من "كل نموذج يحتاج إلى محول خاص به" إلى "تتدفق المعرفة بحرية بين النماذج". ...