Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Questo documento di Harvard e MIT risponde silenziosamente alla domanda più importante sull'AI che nessuno misura correttamente:
Possono i LLM scoprire realmente la scienza, o sono solo bravi a parlarne?
Il documento si chiama “Valutare i Modelli di Linguaggio di Grandi Dimensioni nella Scoperta Scientifica”, e invece di porre domande triviali ai modelli, testa qualcosa di molto più difficile:
Possono i modelli formulare ipotesi, progettare esperimenti, interpretare risultati e aggiornare credenze come veri scienziati?
Ecco cosa hanno fatto diversamente gli autori 👇
• Valutano i LLM attraverso l'intero ciclo di scoperta ipotesi → esperimento → osservazione → revisione
• I compiti spaziano dalla biologia, chimica e fisica, non da rompicapi per bambini
• I modelli devono lavorare con dati incompleti, risultati rumorosi e false piste
• Il successo è misurato dal progresso scientifico, non dalla fluidità o dalla fiducia
Ciò che hanno scoperto è allarmante.
I LLM sono decenti nel suggerire ipotesi, ma fragili in tutto ciò che segue.
✓ Si adattano eccessivamente a schemi superficiali
✓ Faticano ad abbandonare cattive ipotesi anche quando le prove le contraddicono
✓ Confondono correlazione con causalità
✓ Hallucinate spiegazioni quando gli esperimenti falliscono
✓ Ottimizzano per plausibilità, non per verità
Risultato più sorprendente:
`Alti punteggi di riferimento non correlano con la capacità di scoperta scientifica.`
Alcuni modelli di punta che dominano i test di ragionamento standard falliscono completamente quando costretti a eseguire esperimenti iterativi e aggiornare teorie....

Principali
Ranking
Preferiti
