Dieses Papier von Harvard und MIT beantwortet leise die wichtigste KI-Frage, die niemand richtig benchmarkt: Können LLMs tatsächlich Wissenschaft entdecken, oder sind sie nur gut darin, darüber zu sprechen? Das Papier heißt „Evaluierung großer Sprachmodelle in der wissenschaftlichen Entdeckung“ und anstatt die Modelle mit Trivia-Fragen zu konfrontieren, testet es etwas viel Schwierigeres: Können Modelle Hypothesen aufstellen, Experimente entwerfen, Ergebnisse interpretieren und Überzeugungen wie echte Wissenschaftler aktualisieren? Hier ist, was die Autoren anders gemacht haben 👇 • Sie bewerten LLMs über den gesamten Entdeckungszyklus Hypothese → Experiment → Beobachtung → Revision • Die Aufgaben umfassen Biologie, Chemie und Physik, nicht Spielzeugrätsel • Modelle müssen mit unvollständigen Daten, rauschhaften Ergebnissen und falschen Hinweisen arbeiten • Der Erfolg wird durch wissenschaftlichen Fortschritt gemessen, nicht durch Flüssigkeit oder Vertrauen Was sie fanden, ist ernüchternd. LLMs sind anständig darin, Hypothesen vorzuschlagen, aber zerbrechlich bei allem, was folgt. ✓ Sie überanpassen an Oberflächenmuster ✓ Sie haben Schwierigkeiten, schlechte Hypothesen aufzugeben, selbst wenn Beweise ihnen widersprechen ✓ Sie verwechseln Korrelation mit Kausalität ✓ Sie halluzinieren Erklärungen, wenn Experimente scheitern ✓ Sie optimieren für Plausibilität, nicht für Wahrheit Das auffälligste Ergebnis: `Hohe Benchmarkwerte korrelieren nicht mit der Fähigkeit zur wissenschaftlichen Entdeckung.` Einige Top-Modelle, die standardmäßige Denktests dominieren, scheitern völlig, wenn sie gezwungen werden, iterative Experimente durchzuführen und Theorien zu aktualisieren....