يحقق GPT-5 دقة بنسبة 94.6٪ في AIME 2025 ، مما يشير إلى تفكير رياضي شبه بشري. ومع ذلك ، اطلب منه الاستعلام عن قاعدة البيانات الخاصة بك ، وتنخفض معدلات النجاح إلى المراهقين. تكشف معايير Spider 2.0 عن فجوة كبيرة في قدرات الذكاء الاصطناعي. Spider 2.0 هو معيار شامل للنص إلى SQL يختبر قدرة نماذج الذكاء الاصطناعي على إنشاء استعلامات SQL دقيقة من أسئلة اللغة الطبيعية عبر قواعد بيانات العالم الحقيقي. في حين أن نماذج اللغة الكبيرة قد غزت العمل المعرفي في الرياضيات والترميز والاستدلال ، إلا أن تحويل النص إلى SQL لا يزال صعبا بعناد. تختبر معايير Spider 2.0 الثلاثة استعلام قاعدة البيانات في العالم الحقيقي عبر بيئات مختلفة. يستخدم Spider 2.0-Snow قواعد بيانات Snowflake مع 547 مثالا للاختبار ، وتبلغ ذروتها بدقة 59.05٪. يمتد Spider 2.0-Lite إلى BigQuery و Snowflake و SQLite مع 547 مثالا آخر ، ليصل إلى 37.84٪ فقط. يختبر Spider 2.0-DBT إنشاء التعليمات البرمجية مقابل DuckDB مع 68 مثالا ، ويتصدر 39.71٪. فجوة الأداء هذه ليست بسبب قلة المحاولة. منذ نوفمبر 2024 ، تنافست 56 طلبا من 12 عائلة نموذجية على هذه المعايير. دفع كل من Claude و OpenAI و DeepSeek وآخرون نماذجهم ضد هذه الاختبارات. كان التقدم ثابتا ، من حوالي 2٪ إلى حوالي 60٪ ، في الأشهر التسعة الماضية. يتعمق اللغز عندما تفكر في قيود SQL. تحتوي SQL على مفردات محدودة مقارنة باللغة الإنجليزية ، التي تحتوي على 600,000 كلمة ، أو لغات البرمجة التي تحتوي على تركيبات ومكتبات أوسع بكثير لتعرفها. بالإضافة إلى أن هناك الكثير من SQL للتدريب عليها. إذا كان هناك أي شيء ، فيجب أن يكون هذا أسهل من مهام التفكير المفتوحة حيث تتفوق النماذج الآن. ومع ذلك ، حتى جيل SQL المثالي لن يحل التحدي التجاري الحقيقي. تعرف كل شركة "الإيرادات" بشكل مختلف. يقيس التسويق تكلفة اكتساب العملاء حسب إنفاق الحملة ، وتحسبها المبيعات باستخدام التكاليف التنفيذية للحساب ، ويشمل التمويل نفقات الموظفين المحملة بالكامل. تخلق هذه الاختلافات الدلالية ارتباكا لا تستطيع الدقة الفنية حله. تشير نتائج Spider 2.0 إلى حقيقة أساسية حول عمل البيانات. الكفاءة الفنية في بناء جملة SQL هي مجرد نقطة دخول. يكمن التحدي الحقيقي في سياق الأعمال. فهم ما تعنيه البيانات ، وكيف تحدد الفرق المختلفة المقاييس ، ومتى تكون حالات الحافة مهمة. كما كتبت في المزارعين الدلاليين ، يتطلب الجسر بين البيانات الأولية ومعنى العمل حكما بشريا لا يستطيع الذكاء الاصطناعي الحالي تكراره.
‏‎7.66‏K