熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
GPT-5 在 AIME 2025 上達到了 94.6% 的準確率,表明其數學推理接近人類水平。
然而,當要求它查詢你的資料庫時,成功率驟降至十幾%。
Spider 2.0 基準測試揭示了 AI 能力之間的巨大差距。Spider 2.0 是一個全面的文本到 SQL 基準,測試 AI 模型從自然語言問題生成準確 SQL 查詢的能力,涵蓋真實世界的資料庫。
雖然大型語言模型在數學、編碼和推理的知識工作中取得了成功,但文本到 SQL 仍然頑固地困難。
三個 Spider 2.0 基準測試在不同環境中測試真實世界的資料庫查詢。Spider 2.0-Snow 使用 Snowflake 資料庫,包含 547 個測試示例,準確率最高達到 59.05%。
Spider 2.0-Lite 涉及 BigQuery、Snowflake 和 SQLite,另有 547 個示例,僅達到 37.84%。Spider 2.0-DBT 針對 DuckDB 測試代碼生成,包含 68 個示例,最高達到 39.71%。
這種性能差距並不是因為缺乏嘗試。自 2024 年 11 月以來,來自 12 個模型家族的 56 次提交在這些基準測試中競爭。
Claude、OpenAI、DeepSeek 等都在這些測試中推動了他們的模型。過去九個月的進展穩步上升,從大約 2% 提升到約 60%。
當你考慮到 SQL 的限制時,問題變得更加複雜。與擁有 600,000 個單詞的英語相比,SQL 的詞彙量有限,而編程語言則有更廣泛的語法和庫可供了解。此外,還有大量的 SQL 數據可供訓練。
如果說有什麼不同,這應該比模型現在擅長的開放式推理任務更容易。
然而,即使完美的 SQL 生成也無法解決真正的商業挑戰。每家公司對「收入」的定義都不同。
市場營銷通過活動支出來衡量客戶獲取成本,銷售通過客戶經理成本來計算,而財務則包括全額員工費用。這些語義差異造成的混淆是技術準確性無法解決的。
Spider 2.0 的結果指向了數據工作的基本真理。SQL 語法的技術熟練程度只是入門。
真正的挑戰在於商業背景。理解數據的含義、不同團隊如何定義指標以及何時邊緣案例重要。正如我在《語義耕耘者》中所寫,從原始數據到商業意義的橋梁需要人類的判斷,而當前的 AI 無法複製。

7.64K
熱門
排行
收藏