ここでの本当の洞察は「LLMは科学が苦手だ」というものではありません(それが明らかな見解です)。 より深い問題は、これがAIスケーリングのパラダイム全体を明らかにし、業界が実際にどこへ向かっているのかという点です。 本論文は、高いベンチマークスコアが科学的発見能力と相関しないことを明らかにしました。推論テストを支配するモデルは、反復や修正、誤りを認めざるを得ないと完全に失敗します。 これがOpenAI、DeepMind、Anthropicがより大きなベースモデルではなくエージェントシステムに向かって競争している理由を説明しています。 彼らはこのデータの内部バージョンを見ています。スケーリングパラメータは「間違っていた、これが新しい仮説だ」と言う能力をスケールしません。 挙げられた5つの故障モードは、実際には異なるマスクをかぶった同じ故障モードです。LLMは真実追跡プロセスではなく、もっともらしい音の出力を最適化します。表面パターンへの過剰適合、悪い仮説を放棄しないこと、相関関係と因果関係を混同すること...これらはすべて、科学的結論を説明するテキストでのNext-Token予測トレーニングに由来しており、それに至るまでの複雑な反復過程を記録するテキストに由来しています。 本当の科学的推論には、訓練データにはほとんど含まれていないものが必要です。すなわち、成功した実験の前に失敗した47回の実験、3か月間素晴らしかった仮説が「このシステムについて私が信じていたすべてが間違っている」と言った瞬間に崩壊したことです。 論文は、個々のシナリオスコアが低くても、偶然性やガイド付き探査が依然として機能することを示唆しています。 つまり、LLMは科学者がこれまで考えもしなかった発見に偶然たどり着くのに役立つかもしれませんが、リビジョンループの代わりにはなりません。 これは、人間が検証できる多くの候補仮説を生成するシステム、つまり自分でテストを行うシステムを主張するシステムではなく、特定の種類のAIツールにとっては実は強気なことです。 人間が巻き込まれるのが勝ちです。またしても。