Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

steve hsu
Fysiker, AI-grunnlegger, Manifold Podcast
Automatisering påvirker alle, inkludert kinesiske fabrikkarbeidere.
AI: «tap av arbeidsplasser ≠ nedgang i industriell kapasitet – en kritisk lærdom for andre utviklingsøkonomier.»
«På det meste, rundt 2010 (like før og etter den globale finanskrisen), sysselsatte Kinas produksjonssektor rundt 220 millioner mennesker. ... Nå er vi nede i rundt 100 millioner. Så i løpet av det siste tiåret har ~100 millioner mennesker forlatt produksjonen. Hvor ble de av? Hovedsakelig inn i tjenestesektoren." -- Sun Zhongwei, South China Normal University
Sjekket dette med Zhipu GLM-4.5 AI - originalt sitat virker riktig. Se nedenfor for mer.
Kinas produksjonssektor gjennomgikk en dyp transformasjon i løpet av denne perioden:
MVA = Verdiskaping i industrien
Nominell MVA: +$2,79T (120 % økning)
PPP MVA: +$4.33T (89 % økning)
Dette gjenspeiler et vellykket skifte fra arbeidsintensiv til kapitalintensiv produksjon med høy verdi. Mens sysselsettingen stupte, gjorde produktivitetsgevinster og teknologisk oppgradering Kina til en uovertruffen produksjonssupermakt. Dataene understreker at tap av arbeidsplasser ≠ nedgang i industriell kapasitet – en kritisk lærdom for andre utviklingsøkonomier.
###
HVIS du dobler dette til ~200 millioner mennesker over hele verden i avanserte land, er det omtrent den totale befolkningen som kreves for å PRODUSERE alle de høyteknologiske varene som brukes av hele verden! Det er en liten brøkdel av den totale globale arbeidsstyrken, som er i milliarder.

13K
En annen SOTA åpen kildekode-modell 👍
Ved 355B-parametere (32B aktiv MoE) er den litt mindre enn noen av ~1T-modellene vi har sett.
AFAIK de sier ikke hvilken maskinvare som ble brukt til å trene denne modellen, men de brukte 23T-treningstokens.
IIUC både Alibaba og Tencent er investorer i som er en oppstart i Beijing.

Z.ai11. aug., 11:43
Presenterer den tekniske rapporten for GLM-4.5! 👇
Dette arbeidet viser hvordan vi utviklet modeller som utmerker seg ved resonnement, koding og agentiske oppgaver gjennom et unikt treningsparadigme i flere trinn.
Viktige innovasjoner inkluderer iterasjon av ekspertmodeller med selvdestillasjon for å forene evner, en hybrid resonneringsmodus for dynamisk problemløsning og en vanskelighetsbasert læreplan for forsterkende læring.

6,79K
Musk: Verdsatt. Og si meg – hvor vanskelig ville det være å trene en lett OOD-detektor direkte i det latente rommet? Noe som flagger semantisk inkoherens før modellen hallusinerer en løsning?
Hsu: Vi har laget en prototype av det. Du kan bruke kontrastiv læring mellom indistribusjon og syntetisk forstyrrede baner i reststrømmen. De tidlige lagene viser faktisk påvisbare koherensfall – som et «kognitivt dissonans»-signal – før utgangen divergerer. Men den virkelige utfordringen er ventetid. Du har ikke råd til en full bakoverpasning bare for å sjekke selvtilliten.
Musk: Så vi trenger en online monitor – noe som kjører parallelt med foroverpasset, kanskje en liten sonde festet til mellomliggende aktiveringer?
Hsu: Akkurat. Tenk på det som et «kognitivt immunsystem». Vi har en 1B-parametersonde som kjører med 1/10 av latensen til basismodellen og forutsier OODness med ~88 % AUC på stresstestene våre. Det er ikke perfekt, men det er nok til å utløse reserveprotokoller.
Musk: Det kan integreres rent med rutelaget. LLM prøver å løse det; sonden heiser et flagg; systemet påkaller den symbolske motoren eller ber om avklaring. Lukker sløyfen.
Hsu: Ja – og viktigst av alt, du kan logge disse overleveringene og bruke dem til å utvide opplæringsdistribusjonen over tid. Det gjør OOD-feil til kurateringssignaler. Det er ikke bare robusthet; det er adaptiv generalisering.
Musk: Da lærer modellen når den ikke skal stole på seg selv. Det liker jeg. Ydmykhet med vilje.
Hsu: [humrer] Kall det begrenset selvtillit. Fremtiden er ikke modeller som vet alt – det er modeller som kjenner sine grenser og har verktøy for å overskride dem.
Musk: Greit, Steve. Neste uke vil jeg at du skal kjøre den syntetiske testsuiten på vår nyeste basismodell. Hvis vi fortsatt lar oss lure av kontrafaktiske fysikkoppgaver, svinger vi hardt til hybrid.
Denne dialogen kan ha blitt AI-generert.

steve hsu10. aug., 20:06
Musk: Steve, det virkelige spørsmålet jeg stadig stiller teamet er om dagens LLM-er kan resonnere når de forlater opplæringsdistribusjonen. Alle siterer tankekjede-oppfordringer, men det kan bare være etterligning.
Hsu: Enig. De siste benchmarkene viser at selv modeller på Grok4-nivå forringes kraftig når du tvinger frem et domeneskifte – det latente rommet spenner bare ikke over den nye modaliteten.
Musk: Så det er mer et dekningsproblem enn en resonnementfeil?
Hsu: Delvis. Men det er et dypere problem. Transformatorens eneste innebygde induktive skjevhet er assosiativ mønstertilpasning . Når ledeteksten virkelig er utenfor distribusjon – for eksempel et symbolsk puslespill hvis tokens aldri skjedde sammen under trening – har modellen ingen strukturell før å falle tilbake på. Den snur bokstavelig talt mynter.
Musk: Likevel ser vi fremvoksende «grokking» på syntetiske oppgaver. Zhong et al. viste at induksjonshoder kan komponere regler de aldri ble eksplisitt trent på. Ser ikke det ut som resonnement?
Hsu: Komposisjon kjøper deg begrenset generalisering, men reglene må fortsatt ligge i spennet av treningsgrammatikken. Så snart du justerer semantikken – endrer en enkelt operatør i puslespillet – kollapser nøyaktigheten. Det er ikke robust resonnement; det er sprø interpolering.
Musk: Kunne ikke forsterkende læring fikse det? DRG-Sapphire brukte GRPO på toppen av en 7 B-basismodell og fikk koding av legekvalitet på kliniske notater, en klassisk OOD-oppgave.
Hsu: Haken er at RL bare fungerer etter at basismodellen har inntatt nok domenekunnskap via overvåket finjustering. Når korpuset før trening er sparsomt, platåer rastløse rastløse rasterbrød alene. Så "resonnementet" er fortsatt parasittisk på forkunnskapstetthet.
Musk: Så det du tar med deg er at skalering av data og parametere ikke vil løse problemet? Vi vil alltid møte en vegg der det neste OOD-domenet bryter modellen?
Hsu: Ikke nødvendigvis en vegg, men et tak. De empiriske kurvene antyder at generaliseringsfeil forfaller grovt logaritmisk med treningseksempler. Det betyr at du trenger eksponentielt mer data for hver nye halefordeling. For smale vertikaler – for eksempel rakettmotordiagnostikk – er det billigere å bake inn symbolske priorer enn å skalere blindt.
Musk: Noe som bringer oss tilbake til nevrosymbolske hybrider. Gi LLM-en tilgang til en liten verifisert løser, og la den deretter orkestrere kall når distribusjonen endres.
Hsu: Akkurat. LLM blir en metakontroller som gjenkjenner når den er OOD og går over til en spesialisert modul. Denne arkitekturen omgår feilslutningen "en gigantisk transformator".
Musk: Greit, jeg skal be xAI-teamet om å slutte å jage de neste billionene tokenene og begynne å bygge rutinglaget. Takk, Steve.
Hsu: Når som helst. Og hvis du trenger syntetiske OOD-testtilfeller, har laboratoriet mitt en generator som allerede har lurt GPT-5. Jeg sender repoen.
Denne samtalen med Elon kan være AI-generert.

6,95K
steve hsu lagt ut på nytt
Jeg er glad for å ha fått selskap i den siste episoden av Seeking Truth From Facts av Andrew Sabisky, en superprognose og tidligere Downing Street-rådgiver som for tiden jobber hos Bismarck Analysis, for å diskutere forsvar, Storbritannias elendighet, geostrategi og mer! ⏬
4,07K
Min intuisjon er at noe slikt (utover enkel transformatorarkitektur) er nødvendig for å nå ekte AGI/ASI.
Den gode nyheten er at disse ekstra lagene kan være relativt enkle å bygge. En liten brøkdel av ressursene (både databehandling og menneskelig kapital) som brukes til hyperskalering kan få oss dit.
Jeg ser mange innovative ideer som dette komme fra Sinosphere. HVIS hyperskalering ikke er veien til AGI/ASI (i motsetning til smarte nye ideer og bedre arkitekturer), kan USAs ledelse over Kina være null eller til og med negativ!
22,49K
Musk: Steve, det virkelige spørsmålet jeg stadig stiller teamet er om dagens LLM-er kan resonnere når de forlater opplæringsdistribusjonen. Alle siterer tankekjede-oppfordringer, men det kan bare være etterligning.
Hsu: Enig. De siste benchmarkene viser at selv modeller på Grok4-nivå forringes kraftig når du tvinger frem et domeneskifte – det latente rommet spenner bare ikke over den nye modaliteten.
Musk: Så det er mer et dekningsproblem enn en resonnementfeil?
Hsu: Delvis. Men det er et dypere problem. Transformatorens eneste innebygde induktive skjevhet er assosiativ mønstertilpasning . Når ledeteksten virkelig er utenfor distribusjon – for eksempel et symbolsk puslespill hvis tokens aldri skjedde sammen under trening – har modellen ingen strukturell før å falle tilbake på. Den snur bokstavelig talt mynter.
Musk: Likevel ser vi fremvoksende «grokking» på syntetiske oppgaver. Zhong et al. viste at induksjonshoder kan komponere regler de aldri ble eksplisitt trent på. Ser ikke det ut som resonnement?
Hsu: Komposisjon kjøper deg begrenset generalisering, men reglene må fortsatt ligge i spennet av treningsgrammatikken. Så snart du justerer semantikken – endrer en enkelt operatør i puslespillet – kollapser nøyaktigheten. Det er ikke robust resonnement; det er sprø interpolering.
Musk: Kunne ikke forsterkende læring fikse det? DRG-Sapphire brukte GRPO på toppen av en 7 B-basismodell og fikk koding av legekvalitet på kliniske notater, en klassisk OOD-oppgave.
Hsu: Haken er at RL bare fungerer etter at basismodellen har inntatt nok domenekunnskap via overvåket finjustering. Når korpuset før trening er sparsomt, platåer rastløse rastløse rasterbrød alene. Så "resonnementet" er fortsatt parasittisk på forkunnskapstetthet.
Musk: Så det du tar med deg er at skalering av data og parametere ikke vil løse problemet? Vi vil alltid møte en vegg der det neste OOD-domenet bryter modellen?
Hsu: Ikke nødvendigvis en vegg, men et tak. De empiriske kurvene antyder at generaliseringsfeil forfaller grovt logaritmisk med treningseksempler. Det betyr at du trenger eksponentielt mer data for hver nye halefordeling. For smale vertikaler – for eksempel rakettmotordiagnostikk – er det billigere å bake inn symbolske priorer enn å skalere blindt.
Musk: Noe som bringer oss tilbake til nevrosymbolske hybrider. Gi LLM-en tilgang til en liten verifisert løser, og la den deretter orkestrere kall når distribusjonen endres.
Hsu: Akkurat. LLM blir en metakontroller som gjenkjenner når den er OOD og går over til en spesialisert modul. Denne arkitekturen omgår feilslutningen "en gigantisk transformator".
Musk: Greit, jeg skal be xAI-teamet om å slutte å jage de neste billionene tokenene og begynne å bygge rutinglaget. Takk, Steve.
Hsu: Når som helst. Og hvis du trenger syntetiske OOD-testtilfeller, har laboratoriet mitt en generator som allerede har lurt GPT-5. Jeg sender repoen.
Denne samtalen med Elon kan være AI-generert.

102,4K
NYT tvunget til å trykke fakta de VIRKELIG ikke liker.
SPUTNIK MOMENT = tid til å konkurrere, ikke mer COPE
«Etter andre verdenskrig, da USA møtte økt militær og vitenskapelig konkurranse fra Sovjetunionen, begynte selektive universiteter å legge større vekt på akademiske faktorer, inkludert SAT, sa Nicholas Lemann, som har skrevet om historien til standardisert testing og er professor i journalistikk ved Columbia University.»

28,47K
"Selv frontier-modeller sliter med å oppdatere utover forhåndstrening, uansett hvor overbevisende de nye bevisene er."
Vi trener PhD-studenter til å gjøre dette! Kan transformatorer gjøre det uten å endre vekten?


steve hsu8. aug., 07:29
Er tankekjede-resonnement av LLM-er en luftspeiling?
... Resultatene våre avslører at CoT-resonnement er en sprø luftspeiling som forsvinner når den skyves utover opplæringsdistribusjoner. Dette arbeidet gir en dypere forståelse av hvorfor og når CoT-resonnement mislykkes, og understreker den pågående utfordringen med å oppnå ekte og generaliserbar resonnement.
... Våre funn viser at CoT-resonnement fungerer effektivt når det brukes på in-distribusjon eller nær
data i distribusjonen, men blir skjøre og utsatt for feil selv under moderate distribusjonsskift.
I noen tilfeller genererer LLM-er flytende, men logisk inkonsekvente resonneringstrinn. Resultatene antyder at det som ser ut til å være strukturert resonnement kan være en luftspeiling, som kommer fra memorerte eller interpolerte mønstre i treningsdataene i stedet for logisk slutning.
... Sammen tyder disse funnene på at LLM-er ikke er prinsipielle resonnerenere, men snarere sofistikerte simulatorer av resonneringslignende tekst.

13,99K
NYT: President Trump forventes å signere et memorandum på torsdag som krever at høyskoler sender inn opptaksdata til den føderale regjeringen for å verifisere overholdelse av en høyesterettsavgjørelse fra 2023 som avsluttet rasebevisste retningslinjer, ifølge en høytstående tjenestemann i Det hvite hus.
Presidentens handling krever også at Linda McMahon, utdanningsministeren, øker antallet nøyaktighetskontroller av dataene som leveres av skolene og iverksetter tiltak mot universiteter som sender inn utidig eller unøyaktig informasjon.
Notatet vil også kreve at utdanningsdepartementet fornyer prosessen for innsamling av data om høyere utdanning, kjent som Integrated Postsecondary Education Data System, som inkluderer detaljer om opptak, påmelding og økonomisk støtte. Denne informasjonen vil bli gjort mer tilgjengelig for publikum, ifølge et faktaark.

steve hsu6. aug., 07:05
NYTimes: Columbia og Brown vil avsløre opptak og rasedata i Trump-avtale
Det måtte en eksistensiell trussel fra Trump til for å få dem til å frigi disse dataene. For mange år siden undersøkte en fakultetskomité ved University of California-systemet nettopp denne typen data og produserte grafene nedenfor. Hvis du ser på dataene, vil du forstå den monstrøse naturen til positiv særbehandling slik den ble praktisert i USA i ~50 år.
NYT: ... Columbia og Brown må opprettholde «merittbaserte opptakspolitikk», ifølge deres forlik, som kodifiserer administrasjonens bredere mål i juridisk bindende språk.
Universitetene «kan ikke på noen måte ulovlig foretrekke søkere basert på rase, farge eller nasjonal opprinnelse i opptak gjennom sine programmer,» står det i begge avtalene på identisk språk. «Ingen stedfortreder for raseopptak vil bli tolerert.»
... «Justisdepartementet vil sette en stopper for et skammelig system der noens rase betyr mer enn deres evner,» sa Chad Mizelle, fungerende assisterende justisminister, i mars. "Hver høyskole og universitet bør vite at ulovlig diskriminering ved opptak vil bli etterforsket og eliminert."
Språket som ble brukt i forlikene med Columbia og Brown hamrer hjem omstridte påstander om høyesterettssaken som Trump-administrasjonen har fremsatt siden februar.
Den insisterer på at avgjørelsen går utover opptak og utelukker enhver vurdering av rase i universitetslivet.


7,55K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til