Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dieses Papier von Harvard und MIT beantwortet leise die wichtigste KI-Frage, die niemand richtig benchmarkt:
Können LLMs tatsächlich Wissenschaft entdecken, oder sind sie nur gut darin, darüber zu sprechen?
Das Papier heißt „Evaluierung großer Sprachmodelle in der wissenschaftlichen Entdeckung“ und anstatt die Modelle mit Trivia-Fragen zu konfrontieren, testet es etwas viel Schwierigeres:
Können Modelle Hypothesen aufstellen, Experimente entwerfen, Ergebnisse interpretieren und Überzeugungen wie echte Wissenschaftler aktualisieren?
Hier ist, was die Autoren anders gemacht haben 👇
• Sie bewerten LLMs über den gesamten Entdeckungszyklus Hypothese → Experiment → Beobachtung → Revision
• Die Aufgaben umfassen Biologie, Chemie und Physik, nicht Spielzeugrätsel
• Modelle müssen mit unvollständigen Daten, rauschhaften Ergebnissen und falschen Hinweisen arbeiten
• Der Erfolg wird durch wissenschaftlichen Fortschritt gemessen, nicht durch Flüssigkeit oder Vertrauen
Was sie fanden, ist ernüchternd.
LLMs sind anständig darin, Hypothesen vorzuschlagen, aber zerbrechlich bei allem, was folgt.
✓ Sie überanpassen an Oberflächenmuster
✓ Sie haben Schwierigkeiten, schlechte Hypothesen aufzugeben, selbst wenn Beweise ihnen widersprechen
✓ Sie verwechseln Korrelation mit Kausalität
✓ Sie halluzinieren Erklärungen, wenn Experimente scheitern
✓ Sie optimieren für Plausibilität, nicht für Wahrheit
Das auffälligste Ergebnis:
`Hohe Benchmarkwerte korrelieren nicht mit der Fähigkeit zur wissenschaftlichen Entdeckung.`
Einige Top-Modelle, die standardmäßige Denktests dominieren, scheitern völlig, wenn sie gezwungen werden, iterative Experimente durchzuführen und Theorien zu aktualisieren....

Top
Ranking
Favoriten
