Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Professore, scienziato biomedico, immunologo umano, immunoterapia dell'invecchiamento e del cancro. TUTTO SULL'INTELLIGENZA ARTIFICIALE. Interessi: BioAI, robotica, Space Scifi Chess. Opinione personale
Al momento, l'"intelligenza da idraulico" è più preziosa dell'intelligenza a livello di dottorato perché i modelli di AI hanno superato quest'ultima a livello cognitivo, ma sono ancora molto indietro nell'intelligenza fisica. Tuttavia, questo paradosso non durerà a lungo; è semplicemente la prossima frontiera da conquistare.
148
Questo è un documento molto interessante e, credo, importante. Il pensiero a lungo termine è una caratteristica di fondamentale importanza, secondo me. Immagina un modello di intelligenza artificiale che può pensare un milione di passi avanti!
✅Il pensiero di GPT-5 è molto più avanzato rispetto a tutti gli altri modelli che abbiamo testato. Può eseguire compiti di oltre 1000 passi in un colpo solo.
✅Al secondo posto con 432 passi c'è Claude 4 Sonnet... e poi Grok-4 con 384
✅Gemini 2.5 Pro e DeepSeek R1 sono molto indietro, con solo 120.

Shashwat Goel12 set, 23:42
Carta fresca di stampa: L'illusione dei rendimenti decrescenti: Misurare l'esecuzione a lungo termine negli LLM.
I piccoli modelli sono il futuro dell'AI agentica? Non vale la pena scalare il calcolo degli LLM a causa dei rendimenti decrescenti? Gli LLM autoregressivi sono destinati al fallimento e il pensiero è un'illusione?
I casi sfavorevoli per la scalabilità degli LLM sono tutti collegati a una singola capacità: Esecuzione a lungo termine. Tuttavia, è proprio per questo che dovresti essere ottimista riguardo all'aumento delle dimensioni del modello e al calcolo durante il test!
> Prima di tutto, ricordi il grafico METR? Potrebbe essere spiegato dal modello di errori composti di @ylecun
> la lunghezza dell'orizzonte di un modello cresce super-esponenzialmente (@DaveShapi) in accuratezza a passo singolo.
> Risultato 1: Non farti ingannare dai progressi lenti nei benchmark tipici a breve termine
> che sono sufficienti per una crescita esponenziale nella lunghezza dell'orizzonte.
Ma andiamo oltre il modello di @ylecun, testando empiricamente gli LLM...
> Anche solo l'esecuzione è difficile per gli LLM, anche quando fornisci loro il piano e le conoscenze necessarie.
> Non dovremmo interpretare erroneamente i fallimenti di esecuzione come un'incapacità di "ragionare".
> Anche quando un piccolo modello ha un'accuratezza del 100% a passo singolo, modelli più grandi possono eseguire molte più azioni sopra una soglia di successo.
> Hai notato come il tuo agente performa peggio man mano che il compito si allunga? Non sono solo limitazioni del contesto lungo..
> Osserviamo: L'Effetto di Auto-Condizionamento!
> Quando i modelli vedono errori che hanno commesso in precedenza nella loro storia, diventano più propensi a commettere errori nei turni futuri.
> Aumentare le dimensioni del modello aggrava questo problema - un caso raro di scaling inverso!
E per quanto riguarda il pensiero...?
> Il pensiero non è un'illusione. È il motore per l'esecuzione!
> Dove anche DeepSeek v3, Kimi K2 non riescono a eseguire nemmeno 5 turni latentemente quando vengono chiesti di eseguire senza CoT...
> Con CoT, possono fare 10 volte di più.
E per quanto riguarda il confine?
> Il Pensiero di GPT-5 è molto avanti rispetto a tutti gli altri modelli che abbiamo testato. Può eseguire compiti di oltre 1000 passi in un colpo solo.
> Al secondo posto con 432 passi c'è Claude 4 Sonnet... e poi Grok-4 a 384
> Gemini 2.5 Pro e DeepSeek R1 sono molto indietro, a soli 120.
> È per questo che GPT-5 è stato chiamato Horizon? 🤔
> L'open-source ha un lungo ;) cammino da fare!
> Cresciamo insieme! Rilasciamo tutto il codice e i dati.
Abbiamo fatto un lungo approfondimento e ti presentiamo i migliori spunti con fantastici grafici qui sotto 👇

177
Principali
Ranking
Preferiti