غالبا ما تكون قدرة الباحث على التكرار على القدرة محدودة بقدرتنا على قياس تلك القدرة. أعتقد أن التقدم محدود أكثر مما يعتقده الناس. في بعض الأحيان تشعر الإيفالات بالسببية. هل اتبعت SWE-Bench الترميز الوكيل ، أم أن الترميز الوكيل اتبع SWE-bench؟ غالبا ما نسمع عن حل مهام الأفق الطويل حقا (أسابيع ، أشهر) ، أو التعلم المستمر المطلوب ل AGI ، وما إلى ذلك ، ولكن أين هي الإيفال لإثبات أوجه القصور في نماذجنا هنا؟ أرغب في أن يعمل المزيد من الأشخاص على وحدات التجميع الكاملة ل AGI ، و EVAL التي تتعقب حقا القيمة الاقتصادية والتأثير ، والمهام التي تستغرق شهرا ، وما إلى ذلك.
‏‎161.76‏K