GPT-5 は AIME 2025 で 94.6% の精度を達成し、人間に近い数学的推論を示唆しています。 しかし、データベースにクエリを依頼すると、成功率は10代にまで急落します。 Spider 2.0 ベンチマークでは、AI 機能に大きなギャップがあることが明らかになりました。Spider 2.0 は、現実世界のデータベース全体の自然言語の質問から正確な SQL クエリを生成する AI モデルの能力をテストする包括的なテキストから SQL へのベンチマークです。 大規模言語モデルは数学、コーディング、推論の知識作業を征服しましたが、テキストからSQLへの変換は依然として頑固に困難です。 3 つの Spider 2.0 ベンチマークは、さまざまな環境にわたる実際のデータベース クエリをテストします。Spider 2.0-Snowは、547のテスト例を持つSnowflakeデータベースを使用し、ピーク時の精度は59.05%です。 Spider 2.0-Lite は、BigQuery、Snowflake、SQLite にまたがっており、さらに 547 の例があり、わずか 37.84% に達しています。Spider 2.0-DBT は、68 の例を使用して DuckDB に対するコード生成をテストし、最高値は 39.71% でした。 このパフォーマンスのギャップは、努力不足によるものではありません。2024年11月以降、12のモデルファミリーから56件の応募作品がこれらのベンチマークで競い合っています。 Claude、OpenAI、DeepSeek などはすべて、これらのテストに対して自社のモデルをプッシュしています。過去9か月間で、約2%から約60%まで着実に進歩しています。 SQLの制約を考慮すると、パズルはさらに深まります。SQL は、600,000 語の英語や、知っておくべき構文やライブラリがはるかに広いプログラミング言語に比べて語彙が限られています。さらに、トレーニングできるSQLはたくさんあります。 どちらかといえば、これは、モデルが現在優れている自由形式の推論タスクよりも簡単なはずです。 しかし、完璧なSQL生成でさえ、実際のビジネス上の課題を解決することはできません。「収益」の定義は企業ごとに異なります。 マーケティングはキャンペーン費用によって顧客獲得コストを測定し、営業はアカウントエグゼクティブコストを使用して計算し、財務にはフルロードされた従業員費用が含まれます。これらのセマンティックな違いは、技術的な正確さでは解決できない混乱を引き起こします。 Spider 2.0の結果は、データ作業に関する基本的な真実を示しています。SQL 構文の技術的習熟度は、単なる入り口です。 本当の課題はビジネスのコンテキストにあります。データの意味、チームごとに指標の定義方法、エッジケースが重要な場合を理解する。Semantic Cultivators で書いたように、生データとビジネスの意味の間の架け橋には、現在の AI では再現できない人間の判断が必要です。
7.64K