نحن بالكاد نخدش السطح على evals. الغالبية العظمى من مهام العاملين في مجال المعرفة لا يتم تسجيلها في المعايير الأكثر شيوعا اليوم. في حين أنه يمكن في كثير من الأحيان استقراء جودة القدرات من الترميز والرياضيات الحالية ، إلا أنها لا تمثل بشكل كامل تعقيد مهام العالم الحقيقي هذه. سندخل قريبا حقبة حيث متابعة العمل في الخدمات القانونية والمالية والتصنيع والمحاسبة والاستشارات ، والعديد من الحقول الأخرى ذات القيمة العالية ستكون ذات قيمة مثل الترميز.
will depue
will depue‏5 سبتمبر، 07:02
غالبا ما تكون قدرة الباحث على التكرار على القدرة محدودة بقدرتنا على قياس تلك القدرة. أعتقد أن التقدم محدود أكثر مما يعتقده الناس. في بعض الأحيان تشعر الإيفالات بالسببية. هل اتبعت SWE-Bench الترميز الوكيل ، أم أن الترميز الوكيل اتبع SWE-bench؟ غالبا ما نسمع عن حل مهام الأفق الطويل حقا (أسابيع ، أشهر) ، أو التعلم المستمر المطلوب ل AGI ، وما إلى ذلك ، ولكن أين هي الإيفال لإثبات أوجه القصور في نماذجنا هنا؟ أرغب في أن يعمل المزيد من الأشخاص على وحدات التجميع الكاملة ل AGI ، و EVAL التي تتعقب حقا القيمة الاقتصادية والتأثير ، والمهام التي تستغرق شهرا ، وما إلى ذلك.
‏‎4.68‏K