一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

GPT-5 在 AIME 2025 上达到了 94.6% 的准确率，表明其数学推理接近人类水平。然而，当要求它查询你的数据库时，成功率骤降至十几%。 Spider 2.0 基准测试揭示了 AI 能力之间的巨大差距。Spider 2.0 是一个全面的文本到 SQL 基准，测试 AI 模型从自然语言问题生成准确 SQL 查询的能力，涵盖真实世界的数据库。虽然大型语言模型在数学、编码和推理的知识工作中取得了成功，但文本到 SQL 仍然顽固地困难。三个 Spider 2.0 基准测试在不同环境中测试真实世界的数据库查询。Spider 2.0-Snow 使用 Snowflake 数据库，包含 547 个测试示例，准确率最高达到 59.05%。 Spider 2.0-Lite 涉及 BigQuery、Snowflake 和 SQLite，另有 547 个示例，仅达到 37.84%。Spider 2.0-DBT 针对 DuckDB 测试代码生成，包含 68 个示例，最高达到 39.71%。这种性能差距并不是因为缺乏尝试。自 2024 年 11 月以来，来自 12 个模型家族的 56 次提交在这些基准测试中竞争。 Claude、OpenAI、DeepSeek 等都在这些测试中推动了他们的模型。过去九个月的进展稳步上升，从大约 2% 提升到约 60%。当你考虑到 SQL 的限制时，问题变得更加复杂。与拥有 600,000 个单词的英语相比，SQL 的词汇量有限，而编程语言则有更广泛的语法和库可供了解。此外，还有大量的 SQL 数据可供训练。如果说有什么不同，这应该比模型现在擅长的开放式推理任务更容易。然而，即使完美的 SQL 生成也无法解决真正的商业挑战。每家公司对“收入”的定义都不同。市场营销通过活动支出来衡量客户获取成本，销售通过客户经理成本来计算，而财务则包括全额员工费用。这些语义差异造成的混淆是技术准确性无法解决的。 Spider 2.0 的结果指向了数据工作的一个基本真理。SQL 语法的技术熟练程度只是入门。真正的挑战在于商业背景。理解数据的含义、不同团队如何定义指标以及何时边缘案例重要。正如我在《语义耕耘者》中所写，从原始数据到商业意义的桥梁需要人类的判断，而当前的 AI 无法复制。

7.64K