متجر التطبيق اللامركزي | مركز Web3 للأحداث والألعاب

المواضيع الرائجة

غالبا ما تكون قدرة الباحث على التكرار على القدرة محدودة بقدرتنا على قياس تلك القدرة. أعتقد أن التقدم محدود أكثر مما يعتقده الناس. في بعض الأحيان تشعر الإيفالات بالسببية. هل اتبعت SWE-Bench الترميز الوكيل ، أم أن الترميز الوكيل اتبع SWE-bench؟ غالبا ما نسمع عن حل مهام الأفق الطويل حقا (أسابيع ، أشهر) ، أو التعلم المستمر المطلوب ل AGI ، وما إلى ذلك ، ولكن أين هي الإيفال لإثبات أوجه القصور في نماذجنا هنا؟ أرغب في أن يعمل المزيد من الأشخاص على وحدات التجميع الكاملة ل AGI ، و EVAL التي تتعقب حقا القيمة الاقتصادية والتأثير ، والمهام التي تستغرق شهرا ، وما إلى ذلك.

‏‎124.72‏K

الأفضل

المُتصدِّرة

التطبيقات المفضلة