Questo documento di Harvard e MIT risponde silenziosamente alla domanda più importante sull'AI che nessuno misura correttamente: Possono i LLM scoprire realmente la scienza, o sono solo bravi a parlarne? Il documento si chiama “Valutare i Modelli di Linguaggio di Grandi Dimensioni nella Scoperta Scientifica”, e invece di porre domande triviali ai modelli, testa qualcosa di molto più difficile: Possono i modelli formulare ipotesi, progettare esperimenti, interpretare risultati e aggiornare credenze come veri scienziati? Ecco cosa hanno fatto diversamente gli autori 👇 • Valutano i LLM attraverso l'intero ciclo di scoperta ipotesi → esperimento → osservazione → revisione • I compiti spaziano dalla biologia, chimica e fisica, non da rompicapi per bambini • I modelli devono lavorare con dati incompleti, risultati rumorosi e false piste • Il successo è misurato dal progresso scientifico, non dalla fluidità o dalla fiducia Ciò che hanno scoperto è allarmante. I LLM sono decenti nel suggerire ipotesi, ma fragili in tutto ciò che segue. ✓ Si adattano eccessivamente a schemi superficiali ✓ Faticano ad abbandonare cattive ipotesi anche quando le prove le contraddicono ✓ Confondono correlazione con causalità ✓ Hallucinate spiegazioni quando gli esperimenti falliscono ✓ Ottimizzano per plausibilità, non per verità Risultato più sorprendente: `Alti punteggi di riferimento non correlano con la capacità di scoperta scientifica.` Alcuni modelli di punta che dominano i test di ragionamento standard falliscono completamente quando costretti a eseguire esperimenti iterativi e aggiornare teorie....