热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
GPT-5 在 AIME 2025 上达到了 94.6% 的准确率,表明其数学推理接近人类水平。
然而,当要求它查询你的数据库时,成功率骤降至十几%。
Spider 2.0 基准测试揭示了 AI 能力之间的巨大差距。Spider 2.0 是一个全面的文本到 SQL 基准,测试 AI 模型从自然语言问题生成准确 SQL 查询的能力,涵盖真实世界的数据库。
虽然大型语言模型在数学、编码和推理的知识工作中取得了成功,但文本到 SQL 仍然顽固地困难。
三个 Spider 2.0 基准测试在不同环境中测试真实世界的数据库查询。Spider 2.0-Snow 使用 Snowflake 数据库,包含 547 个测试示例,准确率最高达到 59.05%。
Spider 2.0-Lite 涉及 BigQuery、Snowflake 和 SQLite,另有 547 个示例,仅达到 37.84%。Spider 2.0-DBT 针对 DuckDB 测试代码生成,包含 68 个示例,最高达到 39.71%。
这种性能差距并不是因为缺乏尝试。自 2024 年 11 月以来,来自 12 个模型家族的 56 次提交在这些基准测试中竞争。
Claude、OpenAI、DeepSeek 等都在这些测试中推动了他们的模型。过去九个月的进展稳步上升,从大约 2% 提升到约 60%。
当你考虑到 SQL 的限制时,问题变得更加复杂。与拥有 600,000 个单词的英语相比,SQL 的词汇量有限,而编程语言则有更广泛的语法和库可供了解。此外,还有大量的 SQL 数据可供训练。
如果说有什么不同,这应该比模型现在擅长的开放式推理任务更容易。
然而,即使完美的 SQL 生成也无法解决真正的商业挑战。每家公司对“收入”的定义都不同。
市场营销通过活动支出来衡量客户获取成本,销售通过客户经理成本来计算,而财务则包括全额员工费用。这些语义差异造成的混淆是技术准确性无法解决的。
Spider 2.0 的结果指向了数据工作的一个基本真理。SQL 语法的技术熟练程度只是入门。
真正的挑战在于商业背景。理解数据的含义、不同团队如何定义指标以及何时边缘案例重要。正如我在《语义耕耘者》中所写,从原始数据到商业意义的桥梁需要人类的判断,而当前的 AI 无法复制。

7.64K
热门
排行
收藏