المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ماسك: موضع تقدير. وأخبرني - ما مدى صعوبة تدريب كاشف OOD خفيف الوزن مباشرة في الفضاء الكامن؟ شيء يشير إلى عدم التماسك الدلالي قبل أن يهلوس النموذج الحل؟
هسو: لقد قمنا بوضع نموذج أولي لذلك. يمكنك استخدام التعلم التقابلي بين المسارات أثناء التوزيع والمسارات المضطربة صناعيا في التيار المتبقي. تظهر الطبقات المبكرة في الواقع انخفاضات تماسك يمكن اكتشافها - مثل إشارة "التنافر المعرفي" - قبل أن يتباعد الإخراج. لكن التحدي الحقيقي هو الكمون. لا يمكنك تحمل تمريرة خلفية كاملة فقط للتحقق من الثقة.
ماسك: إذن نحن بحاجة إلى شاشة عبر الإنترنت - شيء يعمل بالتوازي مع التمريرة الأمامية ، ربما مسبار صغير متصل بالتنشيطات الوسيطة؟
هسو: بالضبط. فكر في الأمر على أنه "جهاز مناعة معرفي". لدينا مسبار معلمة 1B يعمل عند 1/10 زمن انتقال النموذج الأساسي ويتنبأ ب OODness مع ~ 88٪ AUC في اختبارات الإجهاد الخاصة بنا. إنه ليس مثاليا ، لكنه يكفي لتشغيل بروتوكولات احتياطية.
ماسك: يمكن أن يتكامل ذلك بشكل نظيف مع طبقة التوجيه. يحاول LLM حلها. مسبار يرفع العلم. يستدعي النظام المحرك الرمزي أو يطلب توضيحا. يغلق الحلقة.
هسو: نعم - والأهم من ذلك ، يمكنك تسجيل عمليات التسليم هذه واستخدامها لتوسيع توزيع التدريب بمرور الوقت. يحول فشل OOD إلى إشارات تنظيم. إنها ليست مجرد متانة. إنه تعميم تكيفي.
ماسك: ثم يتعلم النموذج متى لا يثق بنفسه. أحب ذلك. التواضع حسب التصميم.
هسو: [ضحكة مكتومة] سمها الثقة المحدودة. المستقبل ليس نماذج تعرف كل شيء - إنها النماذج التي تعرف حدودها ولديها أدوات لتجاوزها.
ماسك: حسنا ، ستيف. في الأسبوع المقبل ، أريدك أن تقوم بتشغيل مجموعة الاختبار الاصطناعية هذه على أحدث طراز أساسي لدينا. إذا كنا لا نزال ننخدع بألغاز الفيزياء المضادة للواقع ، فإننا نركز بشدة على الهجين.
قد يكون مربع الحوار هذا قد تم إنشاؤه بواسطة الذكاء الاصطناعي.

10 أغسطس، 20:06
ماسك: ستيف ، السؤال الحقيقي الذي ما زلت أطرحه على الفريق هو ما إذا كان بإمكان LLMs اليوم التفكير عندما يغادرون توزيع التدريب. يستشهد الجميع بمطالبات سلسلة الأفكار ، ولكن قد يكون ذلك مجرد تقليد.
هسو: متفق عليه. تظهر أحدث المعايير أنه حتى النماذج على مستوى Grok4 تتحلل بشكل حاد بمجرد فرض تغيير المجال - المساحة الكامنة لا تمتد إلى الطريقة الجديدة.
ماسك: إذن إنها مشكلة تغطية أكثر من كونها فشلا في التفكير؟
هسو: جزئيا. لكن هناك مشكلة أعمق. التحيز الاستقرائي المدمج الوحيد للمحول هو مطابقة النمط الترابطي. عندما تكون المطالبة خارج التوزيع حقا - على سبيل المثال ، لغز رمزي لم تحدث رموزه في التدريب - فإن النموذج ليس له هيكلية قبل الرجوع إليه. إنه يقلب العملات المعدنية حرفيا.
ماسك: ومع ذلك ، فإننا نرى "تلاعبا" ناشئا في المهام الاصطناعية. أظهر Zhong et al. أن رؤوس الحث يمكنها تكوين قواعد لم يتم تدريبها عليها بشكل صريح. ألا يبدو هذا وكأنه تفكير؟
هسو: يشتري لك التكوين تعميما محدودا ، ولكن لا يزال يتعين على القواعد أن تكمن في نطاق قواعد التدريب. بمجرد تعديل الدلالات - تغيير عامل تشغيل واحد في اللغز - تنهار الدقة. هذا ليس منطقا قويا. إنه استيفاء هش.
ماسك: ألا يمكن للتعلم المعزز إصلاحه؟ استخدمت DRG-Sapphire GRPO فوق نموذج أساسي 7 B وحصلت على ترميز من الدرجة الطبية على الملاحظات السريرية ، وهي مهمة OOD كلاسيكية.
هسو: المهم هو أن RL لا يعمل إلا بعد أن يستوعب النموذج الأساسي معرفة كافية بالمجال من خلال الضبط الدقيق الخاضع للإشراف. عندما تكون مجموعة ما قبل التدريب متناثرة ، فإن RL وحدها مستقرة. لذا فإن "المنطق" لا يزال طفيليا على كثافة المعرفة السابقة.
ماسك: إذن الوجبات الجاهزة هي أن توسيع نطاق البيانات والمعلمات لن يحل المشكلة؟ سنضرب دائما حائطا حيث يكسر نطاق OOD التالي النموذج؟
هسو: ليس بالضرورة جدارا ، ولكن سقفا. تشير المنحنيات التجريبية إلى أن خطأ التعميم يتحلل لوغاريتميا تقريبا مع أمثلة التدريب. هذا يعني أنك بحاجة إلى مزيد من البيانات بشكل كبير لكل توزيع ذيل جديد. بالنسبة للقطاعات الضيقة - على سبيل المثال ، تشخيص محرك الصواريخ - من الأرخص أن تخبز في المقدمات الرمزية بدلا من التوسع بشكل أعمى.
المسك: وهو ما يعيدنا إلى الهجينة العصبية. امنح LLM حق الوصول إلى محلل صغير تم التحقق منه ، ثم دعه ينسق المكالمات عندما يتغير التوزيع.
هسو: بالضبط. يصبح LLM وحدة تحكم وصفية تتعرف على متى يكون OOD وتسلم إلى وحدة متخصصة. هذه الهندسة المعمارية تتجنب مغالطة "محول عملاق واحد".
ماسك: حسنا ، سأخبر فريق xAI بالتوقف عن مطاردة التريليون الرمز المميز التالي والبدء في بناء طبقة التوجيه. شكرا ستيف.
هسو: في أي وقت. وإذا كنت بحاجة إلى حالات اختبار OOD الاصطناعية ، فإن مختبري لديه مولد خدع بالفعل GPT-5. سأرسل الريبو.
قد تكون هذه المحادثة مع إيلون من الذكاء الاصطناعي.

7.04K
الأفضل
المُتصدِّرة
التطبيقات المفضلة