Die eigentliche Erkenntnis hier ist nicht, dass "LLMs schlecht in der Wissenschaft sind" (das ist die offensichtliche Meinung). Die tiefere Geschichte handelt davon, was dies über das gesamte KI-Skalierungsparadigma offenbart und wohin die Branche tatsächlich steuert. Dieses Papier stellt fest, dass hohe Benchmarkwerte nicht mit der Fähigkeit zur wissenschaftlichen Entdeckung korrelieren. Modelle, die bei Denktests dominieren, scheitern völlig, wenn sie gezwungen werden, zu iterieren, zu überarbeiten und Fehler einzugestehen. Das erklärt, warum OpenAI, DeepMind und Anthropic alle auf agentische Systeme hinarbeiten, anstatt größere Basismodelle zu entwickeln. Sie haben interne Versionen dieser Daten gesehen. Das Skalieren von Parametern skaliert nicht die Fähigkeit zu sagen: "Ich lag falsch und hier ist meine neue Hypothese." Die fünf aufgeführten Fehlermodi sind tatsächlich derselbe Fehlermodus, der verschiedene Masken trägt: LLMs optimieren für plausibel klingende Ausgaben, nicht für wahrheitsgetreue Prozesse. Überanpassung an Oberflächenmuster, das Verweigern, schlechte Hypothesen aufzugeben, das Verwechseln von Korrelation mit Kausalität… all dies resultiert aus dem Training zur Vorhersage des nächsten Tokens auf Texten, die wissenschaftliche Schlussfolgerungen beschreiben, nicht auf Texten, die den chaotischen iterativen Prozess dokumentieren, um sie zu erreichen. Echtes wissenschaftliches Denken erfordert etwas, das die Trainingsdaten fast nie enthalten: die 47 gescheiterten Experimente vor dem einen, das funktionierte, die Hypothese, die drei Monate brillant aussah und dann zusammenbrach, der Moment, in dem ein Forscher sagte: "Alles, was ich über dieses System geglaubt habe, ist falsch." Das Papier schlägt vor, dass Serendipität und geführte Erkundung auch dann funktionieren, wenn die individuellen Szenarienwerte niedrig sind. Das bedeutet, dass LLMs Wissenschaftlern helfen könnten, auf Entdeckungen zu stoßen, die sie nicht in Betracht gezogen hätten, aber sie können den Überarbeitungsprozess nicht ersetzen. Das ist tatsächlich optimistisch für eine bestimmte Art von KI-Tool: Systeme, die viele Kandidatenhypothesen generieren, die Menschen testen können, anstatt Systeme, die behaupten, die Tests selbst durchzuführen. Der Mensch im Loop gewinnt. Wieder.