这里真正的见解并不是“LLMs在科学方面表现不佳”(这是显而易见的看法)。 更深层次的故事是,这揭示了整个AI扩展范式以及行业实际走向的情况。 这篇论文发现,高基准分数与科学发现能力并不相关。主导推理测试的模型在被迫迭代、修订和承认错误时完全失败。 这解释了为什么OpenAI、DeepMind和Anthropic都在朝着自主系统而不是更大基础模型的方向竞速。 他们已经看到了内部版本的数据。扩展参数并不能扩展说“我错了,这是我的新假设”的能力。 列出的五种失败模式实际上是同一种失败模式穿着不同的面具:LLMs优化的是听起来合理的输出,而不是追求真理的过程。过拟合表面模式,拒绝放弃错误的假设,将相关性与因果关系混淆……这些都源于对描述科学结论的文本进行下一个标记预测训练,而不是记录达到这些结论的混乱迭代过程的文本。 真正的科学推理需要训练数据几乎从未包含的东西:在成功之前的47次失败实验,三个月看起来很聪明但随后崩溃的假设,研究人员说“我对这个系统的所有信念都是错误的”的时刻。 论文建议,即使个别场景分数较低,偶然性和引导探索仍然有效。 这意味着LLMs可能会帮助科学家偶然发现他们未曾考虑过的发现,但它们无法替代修订循环。 这实际上对一种特定类型的AI工具是利好的:为人类生成许多候选假设的系统,而不是声称自己进行测试的系统。 人机协作胜出。再次。