Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Mi sono un po' perso in tutti gli acronimi e il gergo qui, quindi ho fatto spiegare a Claude senza usare acronimi e ora ha tutto perfettamente senso (tldr; larghezza di banda ⟹ semplicità):
Questa è una discussione tecnica affascinante sulla formazione di modelli di linguaggio di grandi dimensioni su larga scala.
La Conversazione Principale
Jingyuan Liu esprime sorpresa nel scoprire che non hai bisogno di certe tecniche di ottimizzazione complesse quando usi TPU (Tensor Processing Units - i chip AI specializzati di Google) rispetto a GPU (Graphics Processing Units - tipicamente i chip NVIDIA).
Concetti Tecnici Chiave Spiegati:
Tipi di Hardware:
•GPU (Graphics Processing Unit): Originariamente progettata per la grafica, ora ampiamente utilizzata per l'AI. NVIDIA domina questo mercato.
•TPU (Tensor Processing Unit): Chip progettati su misura da Google specificamente per l'apprendimento automatico.
Strategie di Parallelismo:
Quando si addestrano modelli AI massicci, è necessario suddividere il lavoro tra molti chip. Ci sono diversi modi per farlo:
1) Parallelismo Dati (DP): Ogni chip elabora diversi lotti di dati con la stessa copia del modello
2) Parallelismo Tensoriale (TP): Le operazioni matematiche del modello sono suddivise tra i chip
3) Parallelismo a Pipeline (PP): Diversi strati del modello sono posizionati su chip diversi, creando una pipeline
La Sfida Tecnica In Discussione:
Il problema della perdita ausiliaria: Quando si addestrano modelli molto grandi, spesso si aggiungono "perdite ausiliarie" (obiettivi di addestramento aggiuntivi) a strati intermedi per aiutare i gradienti a fluire meglio attraverso la rete. Sotto i vincoli di PPVP (Pipeline Parallelism with Variable Partitioning), questo diventa complesso perché:
•Devi fare "tutti f tutti b" (tutti i passaggi in avanti, poi tutti i passaggi all'indietro)
•Questo è impegnativo per l'uso della memoria di picco perché devi memorizzare i risultati intermedi
L'innovazione di DeepSeek: Hanno sviluppato un design "auxfree bias" che apparentemente evita la necessità di queste perdite ausiliarie pur continuando a formare in modo efficace.
La Rivelazione Sorprendente:
L'esperto senior ha detto a Jingyuan che con i TPU a scala K2 o DSV3 (queste sono configurazioni di cluster con centinaia o migliaia di chip), puoi ottenere un'eccellente MFU (Model FLOPs Utilization - fondamentalmente quanto efficientemente stai usando l'hardware) SENZA utilizzare il Parallelismo a Pipeline.
Perché è sorprendente?
•Il Parallelismo a Pipeline è tipicamente considerato essenziale per l'addestramento su larga scala
•È una tecnica complessa che richiede un'ottimizzazione attenta
•Essere in grado di evitarlo semplifica tutto in modo significativo
La Spiegazione di Horace He:
Spiega PERCHÉ questo è possibile con i TPU:
Il vantaggio della larghezza di banda: I TPU e i cluster NVIDIA di alta gamma (come NVL72 - l'ultima configurazione a 72 GPU di NVIDIA con interconnessioni NVLink) hanno una larghezza di banda così alta tra i chip che possono gestire i requisiti di comunicazione senza Parallelismo a Pipeline.
L'intuizione chiave:
•Il Parallelismo a Pipeline è principalmente necessario quando sei "bottlenecked on DP comms" (limitato da quanto velocemente puoi comunicare durante l'addestramento parallelo dei dati)
•Se hai abbastanza larghezza di banda attraverso un dominio abbastanza grande (cluster interconnesso), puoi semplicemente utilizzare strategie di parallelismo più semplici
•Questo funziona "per molto tempo" - il che significa che puoi addestrare anche modelli molto grandi senza raggiungere i limiti
L'Intuizione:
Pensalo come un sistema autostradale:
•I cluster GPU tradizionali sono come avere strade strette tra le città, quindi hai bisogno di un instradamento complesso (Parallelismo a Pipeline) per evitare ingorghi
•I cluster TPU o le GPU collegate tramite NVLink sono come avere autostrade enormi - puoi semplicemente inviare tutto direttamente senza instradamenti complicati
Questo è un grande affare perché il Parallelismo a Pipeline è complesso da implementare, debug e ottimizzare. Essere in grado di evitarlo pur raggiungendo un'alta efficienza rende l'intero processo di addestramento molto più semplice e affidabile.
La discussione evidenzia come i progressi nella tecnologia di interconnessione hardware (le "strade" tra i chip) possano cambiare fondamentalmente le strategie software necessarie per un addestramento AI efficiente.

4,76K
Mi sono un po' perso in tutti gli acronimi e il gergo qui, quindi ho fatto spiegare a Claude senza usare acronimi e ora ha tutto perfettamente senso (tldr; larghezza di banda ⟹ semplicità):
Questa è una discussione tecnica affascinante sulla formazione di modelli di linguaggio di grandi dimensioni su larga scala.
La Conversazione Principale
Jingyuan Liu esprime sorpresa nel scoprire che non è necessario utilizzare certe tecniche di ottimizzazione complesse quando si usano i TPU (Tensor Processing Units - i chip AI specializzati di Google) rispetto alle GPU (Graphics Processing Units - tipicamente i chip NVIDIA).
Concetti Tecnici Chiave Spiegati:
Tipi di Hardware:
•GPU (Graphics Processing Unit): Originariamente progettata per la grafica, ora ampiamente utilizzata per l'AI. NVIDIA domina questo mercato.
•TPU (Tensor Processing Unit): Chip progettati su misura da Google specificamente per l'apprendimento automatico.
Strategie di Parallelismo:
Quando si addestrano modelli AI massicci, è necessario suddividere il lavoro tra molti chip. Ci sono diversi modi per farlo:
1. Parallelismo Dati (DP): Ogni chip elabora diversi batch di dati con la stessa copia del modello.
2. Parallelismo Tensoriale (TP): Le operazioni matematiche del modello sono suddivise tra i chip.
3. Parallelismo a Pipeline (PP): Diversi strati del modello sono posizionati su chip diversi, creando una pipeline.
La Sfida Tecnica in Discussione:
Il problema della perdita ausiliaria: Quando si addestrano modelli molto grandi, spesso si aggiungono "perdite ausiliarie" (obiettivi di addestramento aggiuntivi) a strati intermedi per aiutare i gradienti a fluire meglio attraverso la rete. Sotto i vincoli di PPVP (Parallelismo a Pipeline con Partizionamento Variabile), questo diventa complesso perché:
•È necessario fare "tutti f tutti b" (tutti i passaggi in avanti, poi tutti i passaggi all'indietro).
•Questo è impegnativo per l'uso della memoria di picco perché è necessario memorizzare i risultati intermedi.
L'innovazione di DeepSeek: Hanno sviluppato un design "auxfree bias" che apparentemente evita la necessità di queste perdite ausiliarie pur continuando a formare in modo efficace.
La Rivelazione Sorprendente:
L'esperto senior ha detto a Jingyuan che con i TPU a scala K2 o DSV3 (queste sono configurazioni di cluster con centinaia o migliaia di chip), è possibile ottenere un'eccellente MFU (Utilizzo dei FLOPs del Modello - fondamentalmente quanto efficientemente si utilizza l'hardware) SENZA utilizzare il Parallelismo a Pipeline.
Perché è sorprendente?
•Il Parallelismo a Pipeline è tipicamente considerato essenziale per l'addestramento su larga scala.
•È una tecnica complessa che richiede un'ottimizzazione attenta.
•Essere in grado di evitarlo semplifica tutto in modo significativo.
La Spiegazione di Horace He:
Spiega PERCHÉ questo è possibile con i TPU:
Il vantaggio della larghezza di banda: I TPU e i cluster NVIDIA di alta gamma (come NVL72 - l'ultima configurazione a 72 GPU di NVIDIA con interconnessioni NVLink) hanno una larghezza di banda così alta tra i chip che possono gestire i requisiti di comunicazione senza Parallelismo a Pipeline.
L'intuizione chiave:
•Il Parallelismo a Pipeline è principalmente necessario quando sei "bottlenecked su DP comms" (limitato da quanto velocemente puoi comunicare durante l'addestramento parallelo dei dati).
•Se hai abbastanza larghezza di banda su un dominio abbastanza grande (cluster interconnesso), puoi semplicemente utilizzare strategie di parallelismo più semplici.
•Questo funziona "per molto tempo" - il che significa che puoi addestrare anche modelli molto grandi senza raggiungere i limiti.
L'Intuizione:
Pensalo come un sistema autostradale:
•I cluster GPU tradizionali sono come avere strade strette tra le città, quindi hai bisogno di un instradamento complesso (Parallelismo a Pipeline) per evitare ingorghi.
•I cluster TPU o le GPU collegate tramite NVLink sono come avere autostrade enormi - puoi semplicemente inviare tutto direttamente senza un instradamento elaborato.
Questo è un grande affare perché il Parallelismo a Pipeline è complesso da implementare, debug e ottimizzare. Essere in grado di evitarlo pur raggiungendo un'alta efficienza rende l'intero processo di addestramento molto più semplice e affidabile.
La discussione evidenzia come i progressi nella tecnologia di interconnessione hardware (le "strade" tra i chip) possano cambiare fondamentalmente le strategie software necessarie per un addestramento AI efficiente.

2,39K
Sono un po' sorpreso che nessuno abbia ancora creato un server MCP per Dwarf Fortress che possa consentire a un agente come Codex o Claude Code di controllare il gioco in modo efficiente e monitorare lo stato e i progressi.
Non l'ho mai giocato davvero, l'ho solo scaricato e l'ho controllato brevemente circa 10 anni fa, ma mi è piaciuto leggere a riguardo.
Sembra che sarebbe un ottimo test per un LLM vedere per quanto tempo potrebbe mantenere i nani vivi e prosperi.
Poiché ogni gioco alla fine porta a qualche catastrofe a cascata che causa la morte di tutti i nani, dovrebbe esserci un punto di arresto naturale, il che lo rende un buon candidato per un benchmark. Almeno questa è la mia comprensione (il motto dei giocatori è "Perdere è divertente").
Fare un buon lavoro con questo gioco dipenderebbe dall'accuratezza nella chiamata degli strumenti e dalla coerenza sostenuta nei compiti a lungo termine, oltre alla capacità di monitorare e comprendere le dinamiche di un sistema complesso e fare interventi tempestivi che anticipano e contrastano i problemi.
E poiché è nativo per terminale, potrebbe essere trasmesso e elaborato in modo efficiente utilizzando token regolari senza necessità di elaborazione di immagini multimodali, il che lo renderebbe molto più efficiente rispetto ad altri giochi.
Inoltre, sai che nessun laboratorio di intelligenza artificiale si è ancora addestrato per questo (ancora!), quindi è incontaminato da "benchmaxxing."

3,79K
Una cosa divertente da fare quando devi aspettare per qualche minuto è usare il tuo telefono per chiedere a Claude Opus la seguente domanda su qualche disciplina o campo a caso:
"Quale diresti sia L'intuizione fondamentale o il trucco analitico della cristallografia?"
Sostituisci cristallografia con qualsiasi cosa tu possa pensare. Finora, ho provato:
QED; il Modello Standard; Biochimica; Probabilità; Teoria evolutiva; e molti altri.
C'è qualcosa nel costringere il modello a fare l'impossibile, a condensare un vasto e complesso campo in "un trucco strano", che lo spinge davvero a cercare il miglior principio profondo e unificante nel campo e poi a articolare questo concetto in modo succinto.
Tende a essere qualcosa che è ovvio per i praticanti, ma molto probabilmente sconosciuto alla maggior parte delle persone con solo un interesse superficiale nell'argomento.
È interessante notare che puoi anche premere ripetutamente il pulsante "ripeti" con lo stesso prompt e a volte ottenere spiegazioni molto diverse, ma di solito molto affascinanti.
Ho già imparato MOLTO facendo questo, e potrebbe essere semplicemente il più alto "comprensione per minuto" che ho incontrato in qualsiasi apprendimento autodiretto.
Perché non sono solo fatti divertenti o curiosità interessanti. Sono, per costruzione, idee penetranti e unificanti che collegano una vasta quantità di teoria e fenomeni osservati nel mondo.
È sicuramente molto più ad alta capacità rispetto a guardare un altro video esplicativo su YouTube con animazioni e pubblicità per Brilliant/KiwiCo! Non che ci sia qualcosa di sbagliato in quelli.




7,9K
L'idea che ci sia stata una sorta di "esodo di talenti" da OpenAI recentemente, al punto che non siano più in grado di essere leader nel settore, è tanto fuorviante e sbagliata quanto l'idea che GPT-5 "sia stato un grande flop e che il modello non sia così eccezionale e sia molto incrementale."
Non solo GPT-5 Pro è il modello più intelligente al mondo ora, di gran lunga, nella maggior parte dei compiti reali più impegnativi (soprattutto nei compiti di programmazione, che hanno ora la maggiore importanza economica), ma il nuovo strumento codex cli di OpenAI è incredibilmente ben realizzato.
Sono passati da un lontano terzo posto negli strumenti cli di programmazione ad avere quello che è senza dubbio il migliore attualmente disponibile (nota che mi piace e uso ancora Claude Code, non è o l'uno o l'altro!), con di gran lunga le migliori prestazioni, la latenza più bassa, ecc. perché è programmato in rust.
E ora questo strumento cli è combinato con il miglior modello di programmazione che ha la migliore affidabilità nella chiamata degli strumenti e la migliore coerenza nei compiti lunghi, con il minor numero di allucinazioni.
E non c'è bisogno di dire che la loro app iOS è anche drammaticamente migliore di tutte le altre app AI in termini di rifinitura e funzionalità. L'app Claude è semplicemente l'app web in un sandbox di Safari! E la loro app web è ancora la migliore. Cose come la ricerca funzionano semplicemente meglio rispetto ad altre app. Fondamenta e basi.
Quindi, sì. Alcune persone molto intelligenti come Ilya e John Schulman sono andate a lavorare per altre aziende. Ma hanno ancora un team tecnico assolutamente fantastico con persone di prodotto incredibilmente valide e ottime capacità ingegneristiche.
Non lasciare che il tuo disprezzo per Altman ti accechi all'evidente. Ogni volta che vedo un'altra persona lamentarsi di quanto sia cattivo GPT-5, mi viene da rabbrividire, perché la persona sta dimostrando di non saper pensare con la propria testa basandosi su prove e ragione, ed è stata influenzata a pensare un'opinione (e a diffonderla online) perché pensa che la faccia sembrare intelligente.
34,02K
Quanto è fantastico che ciascuno di quei piccoli chip abbia 8 terabyte di spazio di archiviazione super veloce? E puoi collegarli entrambi a quell'involucro blu e ottenere 20 Gbps tramite USB 3.3 (non ho porte USB 4 e tutte le mie slot pci-e sono occupate da GPU)
Viviamo in un'epoca di tale abbondanza.

3,18K
Come aggiornamento ai miei due recenti thread sull'uso di GPT-5 Pro per avviare un processo di scoperta di teorie innovative che combinano applicazioni nuove di matematica avanzata nei casi d'uso dell'IA, ho fatto creare al modello implementazioni dimostrative in Python utilizzando Jax e Numpy per ciascuna delle 11 idee.
Poi le ho messe insieme in un progetto e ho aggiunto una bella interfaccia a riga di comando per eseguirle, e una serie di test end-to-end che misuravano se il codice fosse matematicamente corretto, controllando che il codice avesse le proprietà matematiche che desideriamo e, infine, se facesse qualcosa di utile rispetto agli approcci standard attuali.
Ho utilizzato codex CLI con GPT-5 per integrare tutto e correggere eventuali bug. Collegherò il repository, che contiene documentazione dettagliata per l'intero progetto e poi scritti per ciascuna delle 11 dimostrazioni che contengono tutto l'output generato dal modello durante il processo.
3,79K
Wow, finalmente ho trovato il tempo di provare la nuova versione della CLI di codex di OpenAI (la loro risposta a Claude Code).
L'ultima volta che ho provato a usare codex (nota che questo è diverso dal loro agente di codifica ospitato anch'esso chiamato codex, il che è estremamente confuso; sto parlando ora dello strumento che esegui localmente sul tuo computer nel terminale), era scritto come un'app Nodejs/Typescript, e in realtà faceva abbastanza schifo:
- potevo accedere solo a modelli più deboli come o4-mini o alla loro variante per codex, confusamente anch'essa chiamata codex (sul serio?)
- UI/UX molto peggiore rispetto a Claude Code
- molto peggiore nella codifica a causa di un modello peggiore, strumenti peggiori, flusso dell'agente peggiore.
- ti costringeva fastidiosamente a dare permesso per tutto, quindi dovevi sorvegliarlo tutto il tempo, rendendolo molto meno utile perché non potevi eseguire attivamente un sacco di essi in parallelo facilmente.
- forse era una cosa buona, però, perché di gran lunga il problema più grande era che faceva cose super avventate e distruttive; era molto più imprudente di CC.
Questo è fondamentalmente il motivo per cui ho smesso immediatamente di usarlo, dato che ha deciso di fare un "git reset --hard HEAD" senza prima fare uno stash, e ho perso del lavoro. Mai più, pensai.
Bene, finalmente ho trovato il tempo di provare la nuovissima versione in rust che utilizza GPT-5 e che può usare il tuo abbonamento GPT Pro esistente invece di una chiave API, e questo è così molto meglio che è scioccante.
Prima di tutto, non c'è semplicemente sostituto per il codice compilato veloce quando si tratta di strumenti interattivi come questo.
Il fatto che sia scritto in rust significa che non c'è alcun ritardo con l'input da tastiera, e anche nessun artefatto strano come hai in CC dove il backspace non funziona correttamente e l'input è traballante e lento perché è scritto in un linguaggio interpretato che è cento volte più lento per cose come questa.
Affrontare costantemente ritardi e traballamenti non è solo più lento, è mentalmente e forse anche emotivamente faticoso e logorante, almeno per me quando uso queste cose per ore e ore. È una sensazione orribile odiare e risentire i tuoi strumenti anche mentre dipendi da essi per fare il tuo lavoro.
Spero davvero che questo alzi il livello per tutti questi strumenti e convinca Anthropic e Google e altri a usare anche rust (o C++, Zig, qualunque cosa).
Ma il miglioramento davvero grande è ovviamente il modello; con un modello peggiore che è inaffidabile nel chiamare strumenti e che perde coerenza su compiti più lunghi, nessuna delle reattività di Rust varrebbe un accidente.
Ma se mi segui qui, allora saprai che sono rimasto in soggezione delle capacità di codifica e della maestria nel chiamare strumenti di GPT-5 Thinking da circa 15 minuti dopo la sua uscita, anche se l'ho usato principalmente dalla scheda agente di Cursor.
La conclusione è che questo nuovo codex in rust è improvvisamente diventato un concorrente davvero formidabile per CC, e dovresti assolutamente provarlo.
Dovrò vedere quanto utilizzo mi lasciano fare sul mio abbonamento GPT Pro da $200/mese, ma se devo prenderne un paio in più, ne varrà sicuramente la pena.
Nota che non ho smesso di usare CC. Mi piace usare entrambi insieme. E credici o no, uso ancora anche Cursor.
La gente dovrebbe smettere di cercare l'unico strumento che sostituisce tutti gli altri e abbracciare il fatto che strumenti diversi hanno punti di forza e debolezza diversi, e ottieni i migliori risultati imparando tutto ciò in modo intuitivo dall'uso costante.
Comunque, fai un favore a te stesso e prendilo ora. Il modo più semplice è eseguire questo comando (nota che questo ti darà la versione rust, nonostante sia confuso usare bun/npm per questo):
bun i -g @openai/codex
8,56K
Wow, finalmente ho trovato il tempo di provare la nuova versione della CLI di codex di OpenAI (la loro risposta a Claude Code).
L'ultima volta che ho provato a usare codex (nota che questo è diverso dal loro agente di codifica ospitato anch'esso chiamato codex, il che è estremamente confuso; sto parlando ora dello strumento che esegui localmente sul tuo computer nel terminale), era scritto come un'app Nodejs/Typescript, e in realtà faceva abbastanza schifo:
- poteva accedere solo a modelli più deboli come o4-mini o la loro variante per codex, confusamente anch'essa chiamata codex (sul serio?)
- UI/UX molto peggiore rispetto a Claude Code
- molto peggiore nella codifica a causa di un modello peggiore, strumenti peggiori, flusso dell'agente peggiore.
- ti costringeva fastidiosamente a dare permesso per tutto, quindi dovevi sorvegliarlo tutto il tempo, rendendolo molto meno utile perché non potevi eseguire attivamente un sacco di loro in parallelo facilmente.
- forse era una cosa buona, però, perché di gran lunga il problema più grande era che faceva cose super avventate e distruttive; era molto più imprudente di CC. Questo è fondamentalmente il motivo per cui ho smesso di usarlo immediatamente, dato che ha deciso di fare un "reset --hard HEAD" senza prima fare uno stash, e ho perso del lavoro. Mai più, pensai.
Bene, finalmente ho trovato il tempo di provare la nuovissima versione in rust che utilizza GPT-5 e che può usare il tuo abbonamento GPT Pro esistente invece di una chiave API, e questo è così molto meglio che è scioccante.
Prima di tutto, non c'è semplicemente sostituto per il codice compilato veloce quando si tratta di strumenti interattivi come questo.
Il fatto che sia scritto in rust significa che non c'è alcun ritardo con l'input da tastiera, e anche nessun artefatto strano come quello che hai in CC dove il backspace non funziona correttamente e l'input è scattoso e lento perché è scritto in un linguaggio interpretato che è cento volte più lento per cose come questa.
Affrontare costantemente ritardi e scatti non è solo più lento, è mentalmente e forse anche emotivamente faticoso e logorante, almeno per me quando uso queste cose per ore e ore. È una sensazione orribile odiare e risentire i tuoi strumenti anche mentre dipendi da essi per fare il tuo lavoro.
Spero davvero che questo alzi il livello per tutti questi strumenti e convinca Anthropic e Google e altri a usare anche rust (o C++, Zig, qualunque cosa).
Ma il miglioramento davvero grande è ovviamente il modello; con un modello peggiore che è inaffidabile nella chiamata degli strumenti e che perde coerenza su compiti più lunghi, nessuna delle reattività di Rust varrebbe un accidente.
Ma se mi segui qui, allora saprai che sono rimasto in soggezione delle capacità di codifica e della maestria nella chiamata degli strumenti di GPT-5 Thinking da circa 15 minuti dopo la sua uscita, anche se l'ho usato principalmente dalla scheda dell'agente di Cursor.
La conclusione è che questo nuovo codex in rust è improvvisamente diventato un concorrente davvero formidabile per CC, e dovresti assolutamente provarlo.
Dovrò vedere quanto utilizzo mi lasciano fare con il mio abbonamento GPT Pro da $200/mese, ma se devo prenderne un paio in più, ne varrà sicuramente la pena.
Nota che non ho smesso di usare CC. Mi piace usare entrambi insieme. E credici o no, uso ancora anche Cursor.
La gente dovrebbe smettere di cercare l'unico strumento che sostituisce tutti gli altri e abbracciare il fatto che strumenti diversi hanno punti di forza e debolezza diversi, e ottieni i migliori risultati imparando tutto ciò in modo intuitivo dall'uso costante.
Comunque, fai un favore a te stesso e prendilo ora. Il modo più semplice è eseguire questo comando (nota che questo ti darà la versione in rust, nonostante sia confuso usare bun/npm per questo):
bun i -g @openai/codex
677
Sono assolutamente convinto che i modelli di intelligenza artificiale più intelligenti attualmente disponibili, GPT-5 Pro e Grok4 Heavy, siano già abbastanza intelligenti e sicuramente sufficientemente informati su matematica e intelligenza artificiale per concepire e sviluppare importanti scoperte teoriche e pratiche, data la giusta forma di sollecitazione.
47,97K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari