Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
L'insight reale qui non è "i LLM sono scarsi nella scienza" (questa è l'interpretazione ovvia).
La storia più profonda riguarda ciò che questo rivela sull'intero paradigma di scalabilità dell'AI e dove l'industria sta realmente andando.
Questo documento scopre che punteggi elevati nei benchmark non si correlano con la capacità di scoperta scientifica. I modelli che dominano i test di ragionamento falliscono completamente quando costretti a iterare, rivedere e ammettere errori.
Questo spiega perché OpenAI, DeepMind e Anthropic stanno tutte correndo verso sistemi agentici invece di modelli di base più grandi.
Hanno visto versioni interne di questi dati. Scalare i parametri non aumenta la capacità di dire "avevo torto e questa è la mia nuova ipotesi."
I cinque modi di fallimento elencati sono in realtà lo stesso modo di fallimento che indossa maschere diverse: i LLM ottimizzano per output plausibili, non per processi che tracciano la verità. Overfitting a modelli superficiali, rifiuto di abbandonare cattive ipotesi, confondere correlazione con causalità... tutto ciò deriva dall'addestramento alla previsione del token successivo su testi che descrivono conclusioni scientifiche, non su testi che documentano il disordinato processo iterativo per raggiungerle.
Il vero ragionamento scientifico richiede qualcosa che i dati di addestramento quasi mai contengono: i 47 esperimenti falliti prima di quello che ha funzionato, l'ipotesi che sembrava brillante per tre mesi e poi è crollata, il momento in cui un ricercatore ha detto "tutto ciò in cui credevo su questo sistema è sbagliato."
Il documento suggerisce che la serendipità e l'esplorazione guidata funzionano ancora anche quando i punteggi dei singoli scenari sono bassi.
Ciò significa che i LLM potrebbero aiutare gli scienziati a imbattersi in scoperte che non avrebbero considerato, ma non possono sostituire il ciclo di revisione.
Questo è in realtà positivo per un tipo specifico di strumento AI: sistemi che generano molte ipotesi candidate per gli esseri umani da testare, piuttosto che sistemi che affermano di fare i test da soli.
L'interazione umana nel processo vince. Di nuovo.
Principali
Ranking
Preferiti
