ربما كان يجب أن أوضح هذا الأمر بشكل أكثر وضوحا ، ولكن يبدو أن عددا قليلا من الأشخاص يخلطون بين ما يقيسه هذا المعيار بالفعل. إنه ليس كذلك ، ولا يحاول أن يكون مقياسا لقدرات الترميز الوكيل أو IRL. إنه يحاول تقريب القدرات الرياضية ل LLMs الحالية على مجموعة من المشكلات التي لدي ، يصعب حلها بشكل خاص لبنى النماذج اليوم. أنا شخصيا أميل إلى تقدير القدرات الرياضية أكثر بكثير من معظم الأشخاص ، وهذا جيد تماما. لا ينبغي أن يهتم معظم الأشخاص بالرياضيات imo وربما يكون Claude-4-5-Sonnet أفضل للأشياء التي تقدرها أكثر في ماجستير في القانون. ولكن بشكل صارم بالنسبة لمشاكل الرياضيات الصعبة - وهذا ما يدعيه هذا الرسم البياني - يتفوق GLM-4.6 على Claude-4-5-Sonnet ، ليس أكثر ولا أقل. إنه ليس دليلا ولا يدعي أن كلود 4-5 سونيت هو نموذج أسوأ بشكل عام أم أنه ليس الخيار الأفضل لك. لا أعرف ما إذا كان بعض الأشخاص يريدون تفسيرها بشكل خاطئ ، لكنني افترضت أن غالبية الأشخاص يمكنهم إجراء النقل أعلاه. يتطلب الأمر حرفيا التفكير والقراءة والنظر إلى الرسم البياني لأكثر من ثانيتين.