تحديثات الرسم البياني المعرفي وفقا لثور الذكاء الاصطناعي أندريه كارباثي ، في عصر ما قبل التدريب ، المفتاح هو البيانات النصية على الإنترنت. في عصر الإشراف على الضبط الدقيق ، فإن المفتاح هو المعرفة المنظمة لأسلوب الأسئلة والأجوبة في Zhihu و Stackflow. في عصر التعلم المكثف ، المفتاح هو بيئة متنوعة. يحتوي مسار الذكاء الاصطناعي x Crypto ، الذي يركز على ترميز أصول الذكاء الاصطناعي ، على أصل الذكاء الاصطناعي الجديد القابل للترميز: البيئة بالإضافة إلى قوة الحوسبة التقليدية والبيانات والنماذج والوكلاء
Andrej Karpathy
Andrej Karpathyمنذ 21 ساعةً
في عصر التدريب المسبق ، كان ما يهم هو نص الإنترنت. ستحتاج في المقام الأول إلى مجموعة كبيرة ومتنوعة وعالية الجودة من مستندات الإنترنت للتعلم منها. في عصر الضبط الدقيق الخاضع للإشراف ، كانت المحادثات. يتم تعيين العمال المتعاقدين لإنشاء إجابات للأسئلة ، تشبه إلى حد ما ما تراه في Stack Overflow / Quora ، أو إلخ ، ولكنها موجهة نحو حالات استخدام LLM. لن يختفي أي من الاثنين أعلاه (imo) ، ولكن في عصر التعلم المعزز هذا ، أصبح الآن بيئات. على عكس ما سبق ، فإنها تمنح LLM فرصة للتفاعل الفعلي - اتخاذ الإجراءات ، ورؤية النتائج ، وما إلى ذلك. هذا يعني أنه يمكنك أن تأمل في القيام بعمل أفضل بكثير من تقليد الخبراء الإحصائيين. ويمكن استخدامها للتدريب والتقييم على حد سواء. ولكن تماما كما كان من قبل ، فإن المشكلة الأساسية الآن هي الحاجة إلى مجموعة كبيرة ومتنوعة وعالية الجودة من البيئات ، كتمارين لماجستير القانون للتدرب عليها. في بعض النواحي ، أتذكر أول مشروع ل OpenAI (صالة الألعاب الرياضية) ، والذي كان بالضبط إطارا يأمل في بناء مجموعة كبيرة من البيئات في نفس المخطط ، ولكن هذا كان قبل LLMs. لذلك كانت البيئات عبارة عن مهام تحكم أكاديمية بسيطة في ذلك الوقت ، مثل عربة العربة ، ATARI ، إلخ. يقوم مركز البيئات @PrimeIntellect (ومستودع "المدققين" على GitHub) ببناء الإصدار الحديث الذي يستهدف على وجه التحديد LLMs ، وهو جهد / فكرة رائعة. لقد عرضت أن شخصا ما يبني شيئا كهذا في وقت سابق من هذا العام: تتمتع البيئات بخاصية أنه بمجرد وضع الهيكل العظمي للإطار ، يمكن من حيث المبدأ للمجتمع / الصناعة أن يتوازى عبر العديد من المجالات المختلفة ، وهو أمر مثير. الفكرة النهائية - شخصيا وعلى المدى الطويل ، أنا متفائل بشأن البيئات والتفاعلات الوكيلة ولكني متفائل بشأن التعلم المعزز على وجه التحديد. أعتقد أن وظائف المكافأة هي سوس فائق ، وأعتقد أن البشر لا يستخدمون RL للتعلم (ربما يفعلون ذلك لبعض المهام الحركية وما إلى ذلك ، ولكن ليس مهام حل المشكلات الفكرية). يستخدم البشر نماذج تعليمية مختلفة أكثر قوة بشكل ملحوظ وكفاءة في العينة ولم يتم اختراعها وقياسها بشكل صحيح حتى الآن ، على الرغم من وجود الرسومات والأفكار المبكرة (كمثال واحد فقط ، فكرة "التعلم الفوري للنظام" ، ونقل التحديث إلى الرموز / السياقات وليس الأوزان والتقطير اختياريا إلى الأوزان كعملية منفصلة مثل النوم).
‏‎2.56‏K