熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
這裡真正的洞察不是「大型語言模型在科學上表現不佳」(這是顯而易見的看法)。
更深層的故事是這揭示了整個 AI 擴展範式以及行業實際走向的情況。
這篇論文發現,高基準分數與科學發現能力並不相關。主導推理測試的模型在被迫迭代、修訂和承認錯誤時完全失敗。
這解釋了為什麼 OpenAI、DeepMind 和 Anthropic 都在朝著代理系統而不是更大的基礎模型競爭。
他們已經看到了這些數據的內部版本。擴展參數並不會擴展說「我錯了,這是我的新假設」的能力。
列出的五種失敗模式實際上是同一種失敗模式穿著不同的面具:大型語言模型優化的是聽起來合理的輸出,而不是追求真理的過程。過度擬合表面模式,拒絕放棄糟糕的假設,混淆相關性與因果性……這些都源於對描述科學結論的文本進行的下一個標記預測訓練,而不是記錄達成這些結論的混亂迭代過程的文本。
真正的科學推理需要一些訓練數據幾乎從不包含的東西:在成功的實驗之前的 47 次失敗實驗,三個月看起來很出色但隨後崩潰的假設,研究人員說「我對這個系統的所有信念都是錯誤的」的那一刻。
這篇論文建議,即使個別情境分數較低,偶然性和引導探索仍然有效。
這意味著大型語言模型可能幫助科學家偶然發現他們不會考慮的發現,但它們無法取代修訂循環。
這對於一種特定類型的 AI 工具實際上是利好消息:生成許多候選假設供人類測試的系統,而不是聲稱自己進行測試的系統。
人類在循環中獲勝。再次。
熱門
排行
收藏
