ハーバードとMITによるこの論文は、誰も正しくベンチマークしていない最も重要なAIの疑問に静かに答えています。 LLMは本当に科学を発見できるのでしょうか、それとも単に話すのが得意なだけなのでしょうか? その論文は「科学的発見における大規模言語モデルの評価」と題されており、モデルのトリビア問題を出す代わりに、はるかに難しいことを検証しています。 モデルは仮説を立て、実験を設計し、結果を解釈し、信念を更新できるのでしょうか? 著者たちが何を違って👇行ったのかを紹介します • 実験→観察→修正を対象に、発見ループ仮説全体→LLMを評価します ・課題は生物学、化学、物理を含み、おもちゃのパズルではありません ・モデルは不完全なデータ、ノイズの多い結果、誤ったリードを扱わなければなりません ・成功は流暢さや自信ではなく、科学的進歩で測られます 彼らが見つけたものは、厳粛なものでした。 LLMは仮説を提案するのは得意ですが、その後の提案には弱いです。 ✓ 表面パターンにオーバーフィッティングする ✓ 証拠が矛盾しても悪い仮説を捨てようと苦労します ✓ 相関関係と因果関係を混同している ✓ 実験が失敗すると幻覚で説明をします ✓ 彼らは真実ではなく、妥当性を最適化します 最も印象的な結果: 「高いベンチマークスコアは科学的発見能力とは相関しません。」 標準的な推論テストを支配するトップモデルの中には、反復実験を行ったり理論を更新したりする際に完全に失敗するものもあります。...