這篇來自哈佛和麻省理工學院的論文靜靜地回答了沒有人正確基準的最重要的AI問題: 大型語言模型(LLMs)真的能發現科學,還是它們只是擅長談論科學? 這篇論文名為《評估大型語言模型在科學發現中的表現》,而不是問模型一些琐碎的問題,它測試的是更困難的東西: 模型能否像真正的科學家一樣形成假設、設計實驗、解釋結果並更新信念? 作者們的不同之處在於👇 • 他們在整個發現循環中評估LLMs:假設 → 實驗 → 觀察 → 修訂 • 任務涵蓋生物學、化學和物理學,而不是玩具謎題 • 模型必須處理不完整的數據、嘈雜的結果和錯誤的線索 • 成功是以科學進展來衡量,而不是流利度或信心 他們的發現令人警醒。 LLMs在提出假設方面表現尚可,但在隨後的所有步驟中都顯得脆弱。 ✓ 它們過度擬合表面模式 ✓ 即使證據與之矛盾,它們也難以放棄不良假設 ✓ 它們將相關性與因果關係混淆 ✓ 當實驗失敗時,它們會幻想解釋 ✓ 它們優化的是合理性,而不是真實性 最引人注目的結果: `高基準分數與科學發現能力無關。` 一些在標準推理測試中佔據主導地位的頂尖模型,在被迫進行迭代實驗和更新理論時完全失敗。...