المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
نحن بالكاد نخدش السطح على evals. لا يتم التقاط جزء كبير من مهام العاملين في مجال المعرفة في المعايير الأكثر شيوعا اليوم.
في حين أنه يمكن في كثير من الأحيان استقراء القدرات ذات الصلة من الترميز والرياضيات الحالية ، إلا أنها لا تمثل بشكل كامل تعقيد مهام العالم الحقيقي في العديد من المجالات مثل الخدمات القانونية أو المالية أو المحاسبة أو الاستشارات.
سندخل قريبا حقبة سيكون فيها متابعة مهام سير العمل هذه ذات قيمة مثل الترميز. سيكون هذا بمثابة فتح كبير للموجة التالية من حالات استخدام عامل الذكاء الاصطناعي في المؤسسة.

5 سبتمبر، 07:02
غالبا ما تكون قدرة الباحث على التكرار على القدرة محدودة بقدرتنا على قياس تلك القدرة. أعتقد أن التقدم محدود أكثر مما يعتقده الناس.
في بعض الأحيان تشعر الإيفالات بالسببية. هل اتبعت SWE-Bench الترميز الوكيل ، أم أن الترميز الوكيل اتبع SWE-bench؟
غالبا ما نسمع عن حل مهام الأفق الطويل حقا (أسابيع ، أشهر) ، أو التعلم المستمر المطلوب ل AGI ، وما إلى ذلك ، ولكن أين هي الإيفال لإثبات أوجه القصور في نماذجنا هنا؟
أرغب في أن يعمل المزيد من الأشخاص على وحدات التجميع الكاملة ل AGI ، و EVAL التي تتعقب حقا القيمة الاقتصادية والتأثير ، والمهام التي تستغرق شهرا ، وما إلى ذلك.
79.93K
الأفضل
المُتصدِّرة
التطبيقات المفضلة