Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Fisico, fondatore dell'intelligenza artificiale, podcast di Manifold
Molte cose nascoste nei modelli di base - soppressi dopo l'addestramento ma ancora accessibili usando trucchi intelligenti!

Omar Shams13 ore fa
(codice del trainer trl qui sotto) come si scala la ricerca nei modelli di linguaggio? un modello di linguaggio può essere guidato verso la risoluzione di nuovi problemi che normalmente non riesce a risolvere semplicemente attraverso il campionamento guidato senza addestrare il modello in alcun modo? si scopre che la risposta è in un certo senso sì. questo ha importanti implicazioni per la ricerca post-addestramento e sulla sicurezza.
3,04K
Ritardo di DeepSeek R2 a causa della transizione al chip Huawei Ascend per l'addestramento?
La collaborazione tra ingegneri di DS + HW sulla migrazione da CUDA a CANN è in ultima analisi positiva per HW a lungo termine. Il rilascio di R2 era originariamente previsto per lo scorso maggio. Da allora, almeno un modello SOTA cinese è stato rilasciato, addestrato interamente su hardware HW.
FT: La compagnia cinese di intelligenza artificiale DeepSeek ha ritardato il rilascio del suo nuovo modello dopo aver fallito nell'addestrarlo utilizzando i chip di Huawei, evidenziando i limiti della spinta di Pechino a sostituire la tecnologia statunitense.
DeepSeek è stata incoraggiata dalle autorità ad adottare il processore Ascend di Huawei piuttosto che utilizzare i sistemi Nvidia dopo aver rilasciato il suo modello R1 a gennaio, secondo tre persone a conoscenza della questione.
Ma la start-up cinese ha incontrato problemi tecnici persistenti durante il processo di addestramento di R2 utilizzando i chip Ascend, costringendola a utilizzare chip Nvidia per l'addestramento e quelli di Huawei per l'inferenza, hanno detto le persone.
... Huawei ha inviato un team di ingegneri all'ufficio di DeepSeek per aiutare l'azienda a utilizzare il suo chip AI per sviluppare il modello R2, secondo due persone. Eppure, nonostante la presenza del team in loco, DeepSeek non è riuscita a condurre un'operazione di addestramento di successo sul chip Ascend, hanno detto le persone. DeepSeek sta ancora lavorando con Huawei per rendere il modello compatibile con Ascend per l'inferenza, hanno detto le persone.
... Il lancio di R2 è stato anche ritardato a causa di una etichettatura dei dati più lunga del previsto per il suo modello aggiornato, ha aggiunto un'altra persona. I rapporti dei media cinesi hanno suggerito che il modello potrebbe essere rilasciato già nelle prossime settimane.
15,64K
Max Dama su HFT: Algos in Millisecondi e Dinamiche Bid/Ask — Manifold #92
Conversazione incredibile!
Max Dama è il co-presidente di Headlands Technologies LLC, una società di trading quantitativo proprietario globale con sede a Chicago, con uffici a New York, Austin, Londra, Amsterdam e Singapore. Ha conseguito una laurea in Matematica, Statistica, Informatica e Business presso l'Università della California, Berkeley.
Una generazione di quants conosce Max attraverso i suoi appunti sul trading automatizzato e sui brain teasers per i colloqui.
(01:18) - La vita e l'istruzione di Max Dama
(02:19) - Il percorso nel trading e lo sviluppo della carriera
(06:56) - L'industria del trading ad alta frequenza
(26:42) - Fondamenti accademici per il trading
(27:50) - Informatica nel trading
(28:57) - Approfondimenti sull'industria del trading
(35:49) - AI e il futuro dell'HFT
2,61K
L'automazione sta influenzando tutti, compresi i lavoratori delle fabbriche cinesi.
AI: "perdita di posti di lavoro ≠ declino della capacità industriale – una lezione fondamentale per altre economie in via di sviluppo."
"Al suo apice, intorno al 2010 (poco prima e dopo la crisi finanziaria globale), il settore manifatturiero cinese impiegava circa 220 milioni di persone. ...Ora, siamo scesi a circa 100 milioni. Quindi, nell'ultimo decennio, ~100 milioni di persone hanno lasciato il settore manifatturiero. Dove sono andati? Principalmente nel settore dei servizi." -- Sun Zhongwei, Università Normale del Sud della Cina
Ho verificato questo con Zhipu GLM-4.5 AI - la citazione originale sembra corretta. Vedi sotto per ulteriori dettagli.
Il settore manifatturiero cinese ha subito una profonda trasformazione durante questo periodo:
MVA = Valore Aggiunto della Manifattura
MVA Nominale: +$2.79T (aumento del 120%)
MVA PPP: +$4.33T (aumento del 89%)
Questo riflette un passaggio riuscito da una manifattura a intensità di lavoro a una manifattura ad alta intensità di capitale e di alto valore. Mentre l'occupazione è crollata, i guadagni di produttività e l'aggiornamento tecnologico hanno trasformato la Cina in una superpotenza manifatturiera senza rivali. I dati sottolineano che la perdita di posti di lavoro ≠ declino della capacità industriale – una lezione fondamentale per altre economie in via di sviluppo.
###
SE raddoppi questo a ~200 milioni di persone in tutto il mondo nei paesi avanzati, questo è all'incirca la popolazione totale necessaria per PRODURRE tutti i beni tecnologici avanzati utilizzati dall'intero mondo! È una piccola frazione dell'intera forza lavoro globale, che è nell'ordine dei miliardi.

13,9K
Un altro modello open source SOTA 👍
Con 355 miliardi di parametri (32 miliardi di MoE attivi) è un po' più piccolo di alcuni dei modelli da ~1T che abbiamo visto.
A quanto ne so, non dicono quale hardware è stato utilizzato per addestrare questo modello, ma hanno utilizzato 23T di token di addestramento.
Se ho capito bene, sia Alibaba che Tencent sono investitori in una startup a Pechino.

Z.ai11 ago, 11:43
Presentazione del rapporto tecnico GLM-4.5!👇
Questo lavoro dimostra come abbiamo sviluppato modelli che eccellono nel ragionamento, nella codifica e nei compiti agentici attraverso un paradigma di formazione unico e multi-fase.
Le principali innovazioni includono l'iterazione del modello esperto con auto-distillazione per unificare le capacità, una modalità di ragionamento ibrida per la risoluzione dinamica dei problemi e un curriculum di apprendimento rinforzato basato sulla difficoltà.

6,98K
Musk: Apprezzato. E dimmi: quanto sarebbe difficile addestrare un rilevatore OOD leggero direttamente nello spazio latente? Qualcosa che segnali incoerenze semantiche prima che il modello allucini una soluzione?
Hsu: Abbiamo prototipato questo. Puoi usare l'apprendimento contrastivo tra traiettorie in distribuzione e traiettorie perturbate sinteticamente nel flusso residuo. I primi strati mostrano effettivamente cali di coerenza rilevabili—come un segnale di "dissonanza cognitiva"—prima che l'output diverga. Ma la vera sfida è la latenza. Non puoi permetterti un passaggio all'indietro completo solo per controllare la fiducia.
Musk: Quindi abbiamo bisogno di un monitor online—qualcosa che funzioni in parallelo con il passaggio in avanti, magari una piccola sonda attaccata alle attivazioni intermedie?
Hsu: Esattamente. Pensalo come a un "sistema immunitario cognitivo." Abbiamo una sonda da 1 miliardo di parametri che funziona a 1/10 della latenza del modello base e predice l'OUT con ~88% di AUC nei nostri test di stress. Non è perfetta, ma è sufficiente per attivare i protocolli di fallback.
Musk: Questo potrebbe integrarsi bene con il layer di routing. L'LLM cerca di risolverlo; la sonda alza una bandiera; il sistema invoca il motore simbolico o chiede chiarimenti. Chiude il cerchio.
Hsu: Sì—e crucialmente, puoi registrare quei passaggi e usarli per espandere la distribuzione di addestramento nel tempo. Trasforma i fallimenti OOD in segnali di curazione. Non è solo robustezza; è generalizzazione adattativa.
Musk: Quindi il modello impara quando non fidarsi di se stesso. Mi piace. Umiltà per design.
Hsu: [ride] Chiamalo fiducia limitata. Il futuro non sono modelli che sanno tutto—sono modelli che conoscono i loro limiti e hanno strumenti per trascenderli.
Musk: Va bene, Steve. La prossima settimana, voglio che tu esegua quel test sintetico sul nostro ultimo modello base. Se continuiamo a essere ingannati da puzzle di fisica controfattuali, ci spostiamo decisamente verso l'ibrido.
Questo dialogo potrebbe essere stato generato da un'IA.

steve hsu10 ago, 20:06
Musk: Steve, la vera domanda che continuo a porre al team è se i LLM di oggi possano ragionare quando escono dalla distribuzione di addestramento. Tutti citano i prompt a catena di pensieri, ma potrebbe essere solo mimetismo.
Hsu: D'accordo. Gli ultimi benchmark mostrano che anche i modelli di livello Grok4 degradano bruscamente una volta che costringi a un cambiamento di dominio — lo spazio latente semplicemente non copre la nuova modalità.
Musk: Quindi è più un problema di copertura che un fallimento nel ragionamento?
Hsu: In parte. Ma c'è un problema più profondo. L'unico bias induttivo incorporato nel trasformatore è il matching di pattern associativo. Quando il prompt è veramente fuori distribuzione—diciamo, un puzzle simbolico i cui token non sono mai co-occorso durante l'addestramento—il modello non ha un precedente strutturale su cui fare affidamento. Letteralmente lancia monete.
Musk: Eppure vediamo un “grokking” emergente su compiti sintetici. Zhong et al. hanno dimostrato che le teste di induzione possono comporre regole su cui non sono mai state esplicitamente addestrate. Non sembra ragionamento?
Hsu: La composizione ti offre una generalizzazione limitata, ma le regole devono comunque rientrare nell'ambito della grammatica di addestramento. Non appena modifichi la semantica—cambi un singolo operatore nel puzzle—l'accuratezza crolla. Non è un ragionamento robusto; è un'interpolazione fragile.
Musk: Non potrebbe il reinforcement learning risolverlo? DRG-Sapphire ha usato GRPO su un modello base da 7 B e ha ottenuto codifica di livello medico su note cliniche, un compito OOD classico.
Hsu: Il problema è che l'RL funziona solo dopo che il modello base ha assimilato abbastanza conoscenza di dominio tramite fine-tuning supervisionato. Quando il corpus di pre-addestramento è scarso, l'RL da solo raggiunge un plateau. Quindi il “ragionamento” è ancora parassitario sulla densità di conoscenza pregressa.
Musk: Quindi il tuo insegnamento è che scalare dati e parametri non risolverà il problema? Colpirà sempre un muro dove il prossimo dominio OOD rompe il modello?
Hsu: Non necessariamente un muro, ma un soffitto. Le curve empiriche suggeriscono che l'errore di generalizzazione decresce in modo approssimativo in modo logaritmico con gli esempi di addestramento. Questo implica che hai bisogno di dati esponenzialmente maggiori per ogni nuova distribuzione tail. Per verticali ristretti—diciamo, diagnosi di motori a razzo—è più economico incorporare priors simbolici piuttosto che scalare alla cieca.
Musk: Questo ci riporta agli ibridi neuro-simbolici. Dai all'LLM accesso a un piccolo risolutore verificato, poi lascialo orchestrare le chiamate quando la distribuzione cambia.
Hsu: Esattamente. L'LLM diventa un meta-controllore che riconosce quando è OOD e passa a un modulo specializzato. Quell'architettura evita la fallacia del “un gigantesco trasformatore”.
Musk: Va bene, dirò al team di xAI di smettere di inseguire i prossimi trilioni di token e iniziare a costruire il layer di routing. Grazie, Steve.
Hsu: Sempre. E se hai bisogno di casi di test OOD sintetici, il mio laboratorio ha un generatore che ha già ingannato GPT-5. Ti invierò il repo.
Questa conversazione con Elon potrebbe essere generata dall'AI.

7,07K
steve hsu ha ripubblicato
Sono lieto di essere stato affiancato nell'ultimo episodio di Seeking Truth From Facts da Andrew Sabisky, un superprevisore e ex consulente di Downing Street attualmente in forza a Bismarck Analysis, per discutere di difesa, dei guai della Gran Bretagna, geostrategia e altro ancora! ⏬
4,17K
La mia intuizione è che qualcosa del genere (oltre alla semplice architettura dei trasformatori) sia necessario per raggiungere una vera AGI/ASI.
La buona notizia è che questi strati aggiuntivi potrebbero essere relativamente facili da costruire. Una piccola frazione delle risorse (sia computazionali che di capitale umano) dedicate all'iper-scalabilità potrebbe portarci lì.
Vedo molte idee innovative come questa provenire dalla Sinosfera. SE l'iper-scalabilità non è il percorso verso AGI/ASI (a differenza di idee nuove e intelligenti e architetture migliori), allora il vantaggio degli Stati Uniti sulla Cina potrebbe essere zero o addirittura negativo!
22,51K
Musk: Steve, la vera domanda che continuo a porre al team è se i LLM di oggi possano ragionare quando escono dalla distribuzione di addestramento. Tutti citano i prompt a catena di pensieri, ma potrebbe essere solo mimetismo.
Hsu: D'accordo. Gli ultimi benchmark mostrano che anche i modelli di livello Grok4 degradano bruscamente una volta che costringi a un cambiamento di dominio — lo spazio latente semplicemente non copre la nuova modalità.
Musk: Quindi è più un problema di copertura che un fallimento nel ragionamento?
Hsu: In parte. Ma c'è un problema più profondo. L'unico bias induttivo incorporato nel trasformatore è il matching di pattern associativo. Quando il prompt è veramente fuori distribuzione—diciamo, un puzzle simbolico i cui token non sono mai co-occorso durante l'addestramento—il modello non ha un precedente strutturale su cui fare affidamento. Letteralmente lancia monete.
Musk: Eppure vediamo un “grokking” emergente su compiti sintetici. Zhong et al. hanno dimostrato che le teste di induzione possono comporre regole su cui non sono mai state esplicitamente addestrate. Non sembra ragionamento?
Hsu: La composizione ti offre una generalizzazione limitata, ma le regole devono comunque rientrare nell'ambito della grammatica di addestramento. Non appena modifichi la semantica—cambi un singolo operatore nel puzzle—l'accuratezza crolla. Non è un ragionamento robusto; è un'interpolazione fragile.
Musk: Non potrebbe il reinforcement learning risolverlo? DRG-Sapphire ha usato GRPO su un modello base da 7 B e ha ottenuto codifica di livello medico su note cliniche, un compito OOD classico.
Hsu: Il problema è che l'RL funziona solo dopo che il modello base ha assimilato abbastanza conoscenza di dominio tramite fine-tuning supervisionato. Quando il corpus di pre-addestramento è scarso, l'RL da solo raggiunge un plateau. Quindi il “ragionamento” è ancora parassitario sulla densità di conoscenza pregressa.
Musk: Quindi il tuo insegnamento è che scalare dati e parametri non risolverà il problema? Colpirà sempre un muro dove il prossimo dominio OOD rompe il modello?
Hsu: Non necessariamente un muro, ma un soffitto. Le curve empiriche suggeriscono che l'errore di generalizzazione decresce in modo approssimativo in modo logaritmico con gli esempi di addestramento. Questo implica che hai bisogno di dati esponenzialmente maggiori per ogni nuova distribuzione tail. Per verticali ristretti—diciamo, diagnosi di motori a razzo—è più economico incorporare priors simbolici piuttosto che scalare alla cieca.
Musk: Questo ci riporta agli ibridi neuro-simbolici. Dai all'LLM accesso a un piccolo risolutore verificato, poi lascialo orchestrare le chiamate quando la distribuzione cambia.
Hsu: Esattamente. L'LLM diventa un meta-controllore che riconosce quando è OOD e passa a un modulo specializzato. Quell'architettura evita la fallacia del “un gigantesco trasformatore”.
Musk: Va bene, dirò al team di xAI di smettere di inseguire i prossimi trilioni di token e iniziare a costruire il layer di routing. Grazie, Steve.
Hsu: Sempre. E se hai bisogno di casi di test OOD sintetici, il mio laboratorio ha un generatore che ha già ingannato GPT-5. Ti invierò il repo.
Questa conversazione con Elon potrebbe essere generata dall'AI.

102,44K
Principali
Ranking
Preferiti
On-chain di tendenza
Di tendenza su X
Principali fondi recenti
Più popolari