这篇来自哈佛和麻省理工学院的论文安静地回答了一个没有人正确基准测试的最重要的AI问题: 大型语言模型(LLMs)真的能发现科学,还是仅仅擅长谈论它? 这篇论文的标题是“在科学发现中评估大型语言模型”,它不是在问模型琐事问题,而是测试一些更困难的内容: 模型能否像真正的科学家一样形成假设、设计实验、解释结果并更新信念? 作者们做了以下不同的事情 👇 • 他们在整个发现循环中评估LLMs:假设 → 实验 → 观察 → 修正 • 任务涵盖生物学、化学和物理学,而不是玩具难题 • 模型必须处理不完整的数据、嘈杂的结果和错误的线索 • 成功是通过科学进展来衡量的,而不是流利度或信心 他们发现的结果令人警醒。 LLMs在提出假设方面表现不错,但在随后的所有环节中都显得脆弱。 ✓ 他们过度拟合表面模式 ✓ 即使证据与之相矛盾,他们也难以放弃坏假设 ✓ 他们将相关性与因果关系混淆 ✓ 当实验失败时,他们会幻觉出解释 ✓ 他们优化的是合理性,而不是真相 最引人注目的结果: `高基准分数与科学发现能力没有相关性。` 一些在标准推理测试中占主导地位的顶级模型在被迫进行迭代实验和更新理论时完全失败。...