"سنحتاج إلى بناء الكثير من البيئات الجديدة لمحاولة تعلم مهارات متنوعة من خلال تدريب RL." لا يمكن أن يكون أكثر تفاؤلا على @PrimeIntellect المكافأة: يذكر المنشور أيضا حساء / دمج النموذج الذي أعتقد أنه ما كان يعمل عليه PI في الأصل في عام 2023 (؟)
jack morris
jack morris‏11 يوليو 2025
مدونة جديدة: كيفية توسيع نطاق RL إلى 10 ^ 26 FLOPs يحاول الجميع معرفة الطريقة الصحيحة لتوسيع نطاق التفكير باستخدام RL قارن إيليا الإنترنت بالوقود الأحفوري: قد تكون البيانات المفيدة الوحيدة التي لدينا. وهي قابلة للاستهلاك ربما يجب أن نتعلم التفكير من الإنترنت (وليس فقط الرياضيات والبرمجة)
‏‎32.11‏K