المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
أقدر صدق @Anthropic في بطاقة النظام الأخيرة لديهم، لكن محتواها لا يمنحني ثقة بأن الشركة ستتصرف بمسؤولية عند نشر نماذج الذكاء الاصطناعي المتقدمة:
-اعتمدوا بشكل أساسي على مسح داخلي لتحديد ما إذا كان أوبوس 4.6 قد تجاوز عتبة الذكاء الاصطناعي المستقل للبحث والتطوير (وبالتالي سيتطلب ضمانات أقوى للإصدار بموجب سياسة التوسع المسؤول الخاصة بهم). لم يكن هذا حتى استطلاعا خارجيا لطرف ثالث محايد، بل كان استطلاعا لموظفي أنثروبيك.
- عندما قدم المستجيبون الداخليون في 16/5 تقييما اقترح أنه قد تكون هناك حاجة إلى ضمانات أقوى لإطلاق النماذج، تابعت أنثروبيك مع هؤلاء الموظفين تحديدا وطلبت منهم "توضيح آرائهم." لم يذكروا أي متابعة مماثلة للمستجيبين الآخرين في 16/11. لا يوجد نقاش في بطاقة النظام حول كيف قد يخلق ذلك تحيزا في نتائج الاستبيان.
-سبب اعتمادهم على الاستطلاعات هو أن تقييمات البحث والتطوير للذكاء الاصطناعي لديهم مشبعة. قد يجادل البعض بأن تقدم الذكاء الاصطناعي كان سريعا جدا بحيث من المفهوم أنه لا توجد تقييمات كمية أكثر تقدما بعد، لكن يمكننا ويجب علينا أن نفرض معايير عالية على مختبرات الذكاء الاصطناعي. أيضا، مختبرات أخرى لديها تقييمات متقدمة للبحث والتطوير للذكاء الاصطناعي غير مشبعة. على سبيل المثال، لدى OpenAI معيار OPQA الذي يقيس قدرة نماذج الذكاء الاصطناعي على حل المشكلات الداخلية الحقيقية التي واجهتها فرق البحث في OpenAI والتي استغرق الفريق أكثر من يوم لحلها.
لا أعتقد أن أوبوس 4.6 في الواقع على مستوى باحث ذكاء اصطناعي مبتدئ عن بعد، ولا أعتقد أنه خطير في الإصدار. لكن هدف سياسة التوسع المسؤول هو بناء القوة المؤسسية والعادات الجيدة قبل أن تصبح الأمور جدية. الاستطلاعات الداخلية، خاصة بعد أن أجرتها Anthropic، ليست بديلا مسؤولا عن التقييمات الكمية.

بطاقة النظام @Anthropic موجودة هنا:
300
الأفضل
المُتصدِّرة
التطبيقات المفضلة
