GPT-5 在 AIME 2025 上达到了 94.6% 的准确率,表明其数学推理接近人类水平。 然而,当要求它查询你的数据库时,成功率骤降至十几%。 Spider 2.0 基准测试揭示了 AI 能力之间的巨大差距。Spider 2.0 是一个全面的文本到 SQL 基准,测试 AI 模型从自然语言问题生成准确 SQL 查询的能力,涵盖真实世界的数据库。 虽然大型语言模型在数学、编码和推理的知识工作中取得了成功,但文本到 SQL 仍然顽固地困难。 三个 Spider 2.0 基准测试在不同环境中测试真实世界的数据库查询。Spider 2.0-Snow 使用 Snowflake 数据库,包含 547 个测试示例,准确率最高达到 59.05%。 Spider 2.0-Lite 涉及 BigQuery、Snowflake 和 SQLite,另有 547 个示例,仅达到 37.84%。Spider 2.0-DBT 针对 DuckDB 测试代码生成,包含 68 个示例,最高达到 39.71%。 这种性能差距并不是因为缺乏尝试。自 2024 年 11 月以来,来自 12 个模型家族的 56 次提交在这些基准测试中竞争。 Claude、OpenAI、DeepSeek 等都在这些测试中推动了他们的模型。过去九个月的进展稳步上升,从大约 2% 提升到约 60%。 当你考虑到 SQL 的限制时,问题变得更加复杂。与拥有 600,000 个单词的英语相比,SQL 的词汇量有限,而编程语言则有更广泛的语法和库可供了解。此外,还有大量的 SQL 数据可供训练。 如果说有什么不同,这应该比模型现在擅长的开放式推理任务更容易。 然而,即使完美的 SQL 生成也无法解决真正的商业挑战。每家公司对“收入”的定义都不同。 市场营销通过活动支出来衡量客户获取成本,销售通过客户经理成本来计算,而财务则包括全额员工费用。这些语义差异造成的混淆是技术准确性无法解决的。 Spider 2.0 的结果指向了数据工作的一个基本真理。SQL 语法的技术熟练程度只是入门。 真正的挑战在于商业背景。理解数据的含义、不同团队如何定义指标以及何时边缘案例重要。正如我在《语义耕耘者》中所写,从原始数据到商业意义的桥梁需要人类的判断,而当前的 AI 无法复制。
7.64K