Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Jeg gikk meg litt vill i alle akronymene og sjargongen her, så jeg fikk Claude til å forklare det uten å bruke noen akronymer, og nå gir det hele perfekt mening (tldr; båndbredde ⟹ enkelhet):
Dette er en fascinerende teknisk diskusjon om trening av store språkmodeller i stor skala.
Kjernesamtalen
Jingyuan Liu uttrykker overraskelse over å oppdage at du ikke trenger visse komplekse optimaliseringsteknikker når du bruker TPU-er (Tensor Processing Units - Googles spesialiserte AI-brikker) kontra GPUer (Graphics Processing Units - vanligvis NVIDIAs brikker).
Viktige tekniske konsepter forklart:
Maskinvare typer:
•GPU (Graphics Processing Unit): Opprinnelig designet for grafikk, nå mye brukt for AI. NVIDIA dominerer dette markedet.
•TPU (Tensor Processing Unit): Googles spesialdesignede brikker spesielt for maskinlæring.
Parallellisme strategier:
Når du trener massive AI-modeller, må du dele arbeidet på tvers av mange brikker. Det er flere måter å gjøre dette på:
1) Dataparallellitet (DP): Hver brikke behandler forskjellige datapartier med samme modellkopi
2) Tensorparallellitet (TP): Modellens matematiske operasjoner er delt på brikker
3) Pipeline Parallelism (PP): Ulike lag av modellen er plassert på forskjellige brikker, og skaper en rørledning
Den tekniske utfordringen som diskuteres:
Hjelpetapsproblemet: Når du trener veldig store modeller, legger du ofte til "hjelpetap" (ekstra treningsmål) på mellomlag for å hjelpe gradienter til å flyte bedre gjennom nettverket. Under PPVP-begrensninger (Pipeline Parallelism with Variable Partitioning) blir dette komplisert fordi:
•Du må gjøre "alle f alle b" (alle foroverpasseringer, deretter alle bakoverpasseringer)
•Dette er utfordrende for topp minnebruk fordi du må lagre mellomliggende resultater
DeepSeeks innovasjon: De utviklet et "auxfree bias"-design som tilsynelatende unngår å trenge disse hjelpetapene mens de fortsatt trener effektivt.
Den overraskende avsløringen:
Senioreksperten fortalte Jingyuan at med TPU-er i K2- eller DSV3-skala (dette er klyngekonfigurasjoner med hundrevis eller tusenvis av brikker), kan du oppnå utmerket MFU (Model FLOPs Utilization - i utgangspunktet hvor effektivt du bruker maskinvaren) UTEN å bruke Pipeline Parallelity.
Hvorfor er dette overraskende?
•Pipeline-parallellitet anses vanligvis som avgjørende for opplæring i stor skala
•Det er en kompleks teknikk som krever nøye optimalisering
•Å kunne unngå det forenkler alt betydelig
Horace er forklaring:
Han forklarer HVORFOR dette er mulig med TPU-er:
Båndbreddefordelen: TPU-er og avanserte NVIDIA-klynger (som NVL72 - NVIDIAs nyeste 72-GPU-konfigurasjon med NVLink-sammenkoblinger) har så høy båndbredde mellom brikker at de kan håndtere kommunikasjonskravene uten Pipeline Parallelity.
Den viktigste innsikten:
•Pipeline-parallellitet er først og fremst nødvendig når du er "flaskehals på DP-kommunikasjon" (begrenset av hvor raskt du kan kommunisere under parallell datatrening)
•Hvis du har nok båndbredde over et stort nok domene (sammenkoblet klynge), kan du bare bruke enklere parallellitetsstrategier
•Dette fungerer "i veldig lang tid" - noe som betyr at du kan trene selv veldig store modeller uten å treffe grensene
Intuisjonen:
Tenk på det som et motorveisystem:
•Tradisjonelle GPU-klynger er som å ha smale veier mellom byer, så du trenger kompleks ruting (Pipeline Parallelity) for å unngå trafikkork
•TPU-klynger eller NVLink-tilkoblede GPUer er som å ha massive motorveier – du kan bare sende alt direkte uten fancy ruting
Dette er en stor sak fordi Pipeline Parallelism er komplisert å implementere, feilsøke og optimalisere. Å kunne unngå det samtidig som man oppnår høy effektivitet gjør hele opplæringsprosessen mye enklere og mer pålitelig.
Diskusjonen fremhever hvordan fremskritt innen maskinvaresammenkoblingsteknologi ("veiene" mellom brikker) fundamentalt kan endre programvarestrategiene som trengs for effektiv AI-opplæring.

10,2K
Jeg gikk meg litt vill i alle akronymene og sjargongen her, så jeg fikk Claude til å forklare det uten å bruke noen akronymer, og nå gir det hele perfekt mening (tldr; båndbredde ⟹ enkelhet):
Dette er en fascinerende teknisk diskusjon om trening av store språkmodeller i stor skala.
Kjernesamtalen
Jingyuan Liu uttrykker overraskelse over å oppdage at du ikke trenger visse komplekse optimaliseringsteknikker når du bruker TPU-er (Tensor Processing Units - Googles spesialiserte AI-brikker) kontra GPUer (Graphics Processing Units - vanligvis NVIDIAs brikker).
Viktige tekniske konsepter forklart:
Maskinvare typer:
•GPU (Graphics Processing Unit): Opprinnelig designet for grafikk, nå mye brukt for AI. NVIDIA dominerer dette markedet.
•TPU (Tensor Processing Unit): Googles spesialdesignede brikker spesielt for maskinlæring.
Parallellisme strategier:
Når du trener massive AI-modeller, må du dele arbeidet på tvers av mange brikker. Det er flere måter å gjøre dette på:
1Dataparallellitet (DP): Hver brikke behandler forskjellige datagrupper med samme modellkopi
2Tensorparallellitet (TP): Modellens matematiske operasjoner er delt på brikker
3Pipeline Parallelism (PP): Ulike lag av modellen er plassert på forskjellige brikker, og skaper en rørledning
Den tekniske utfordringen som diskuteres:
Hjelpetapsproblemet: Når du trener veldig store modeller, legger du ofte til "hjelpetap" (ekstra treningsmål) på mellomlag for å hjelpe gradienter til å flyte bedre gjennom nettverket. Under PPVP-begrensninger (Pipeline Parallelism with Variable Partitioning) blir dette komplisert fordi:
•Du må gjøre "alle f alle b" (alle foroverpasseringer, deretter alle bakoverpasseringer)
•Dette er utfordrende for topp minnebruk fordi du må lagre mellomliggende resultater
DeepSeeks innovasjon: De utviklet et "auxfree bias"-design som tilsynelatende unngår å trenge disse hjelpetapene mens de fortsatt trener effektivt.
Den overraskende avsløringen:
Senioreksperten fortalte Jingyuan at med TPU-er i K2- eller DSV3-skala (dette er klyngekonfigurasjoner med hundrevis eller tusenvis av brikker), kan du oppnå utmerket MFU (Model FLOPs Utilization - i utgangspunktet hvor effektivt du bruker maskinvaren) UTEN å bruke Pipeline Parallelity.
Hvorfor er dette overraskende?
•Pipeline-parallellitet anses vanligvis som avgjørende for opplæring i stor skala
•Det er en kompleks teknikk som krever nøye optimalisering
•Å kunne unngå det forenkler alt betydelig
Horace er forklaring:
Han forklarer HVORFOR dette er mulig med TPU-er:
Båndbreddefordelen: TPU-er og avanserte NVIDIA-klynger (som NVL72 - NVIDIAs nyeste 72-GPU-konfigurasjon med NVLink-sammenkoblinger) har så høy båndbredde mellom brikker at de kan håndtere kommunikasjonskravene uten Pipeline Parallelity.
Den viktigste innsikten:
•Pipeline-parallellitet er først og fremst nødvendig når du er "flaskehals på DP-kommunikasjon" (begrenset av hvor raskt du kan kommunisere under parallell datatrening)
•Hvis du har nok båndbredde over et stort nok domene (sammenkoblet klynge), kan du bare bruke enklere parallellitetsstrategier
•Dette fungerer "i veldig lang tid" - noe som betyr at du kan trene selv veldig store modeller uten å treffe grensene
Intuisjonen:
Tenk på det som et motorveisystem:
•Tradisjonelle GPU-klynger er som å ha smale veier mellom byer, så du trenger kompleks ruting (Pipeline Parallelity) for å unngå trafikkork
•TPU-klynger eller NVLink-tilkoblede GPUer er som å ha massive motorveier – du kan bare sende alt direkte uten fancy ruting
Dette er en stor sak fordi Pipeline Parallelism er komplisert å implementere, feilsøke og optimalisere. Å kunne unngå det samtidig som man oppnår høy effektivitet gjør hele opplæringsprosessen mye enklere og mer pålitelig.
Diskusjonen fremhever hvordan fremskritt innen maskinvaresammenkoblingsteknologi ("veiene" mellom brikker) fundamentalt kan endre programvarestrategiene som trengs for effektiv AI-opplæring.

3,43K
Jeg er litt overrasket over at ingen ennå har laget en Dwarf Fortress MCP-server som kan tillate en agent som Codex eller Claude Code å effektivt kontrollere spillet og overvåke tilstanden og fremgangen.
Jeg spilte det egentlig aldri selv, bare lastet det ned og sjekket det ut kort for rundt 10 år siden, men jeg likte å lese om det.
Det føles som om det ville være en veldig god test av en LLM for å se hvor lenge det kan holde dvergene i live og trives.
Fordi hvert spill til slutt resulterer i en kaskadekatastrofe som får alle dvergene til å dø, bør det være et naturlig stoppepunkt for det, noe som gjør det til en god referansekandidat. Det er i hvert fall min forståelse av det (spillernes motto er "Å tape er gøy").
Å gjøre en god jobb med disse spillene vil være avhengig av verktøykallende nøyaktighet og vedvarende sammenheng med lange oppgaver, pluss evnen til å overvåke og forstå dynamikken i et komplekst system og gjøre rettidige intervensjoner som forutser og motvirker problemer.
Og fordi det er terminalt innfødt, kan det effektivt overføres og behandles ved hjelp av vanlige tokens uten å trenge multimodal bildebehandling, noe som vil gjøre det langt mer effektivt enn andre spill.
I tillegg vet du at ingen AI-laboratorier har trent for dette (ennå!), så det er ubesmittet av "benchmaxxing."

4,04K
En morsom ting å gjøre når du trenger å vente i noen minutter, er å bruke telefonen til å stille Claude Opus følgende spørsmål om en tilfeldig disiplin eller et felt:
"Hva vil du si er kjerneinnsikten eller analytiske trikset til krystallografi?"
Bytt ut krystallografi med alt du kan tenke deg. Så langt har jeg prøvd:
QED; standardmodellen; Biokjemi; Sannsynlighet; Evolusjonsteori; og mange flere.
Det er noe med å tvinge modellen til å gjøre det umulige, å kondensere et stort, komplekst felt til «ett merkelig triks», som får den til å virkelig søke etter det beste dype, samlende prinsippet i feltet og deretter artikulere det kortfattet.
Dette har en tendens til å være noe som er åpenbart for utøvere, men som med stor sannsynlighet er ukjent for de fleste med bare en forbigående interesse for emnet.
Interessant nok kan du også trykke gjentatte ganger på "prøv på nytt" -knappen med samme ledetekst og noen ganger få veldig forskjellige, men vanligvis veldig fascinerende forklaringer.
Jeg har allerede lært MYE av å gjøre dette, og det kan bare være den høyeste "forståelsen per minutt" jeg har møtt i noen selvstyrt læring.
Fordi de ikke bare er morsomme fakta eller kule godbiter. De er, ved konstruksjon, gjennomtrengende og forenende ideer som binder sammen en enorm mengde teori og observerte fenomener i verden.
Det er absolutt mye mer høy båndbredde enn å se enda en YouTube-forklaringsvideo med animasjoner og annonser for Brilliant/KiwiCo! Ikke at det er noe galt med dem.




7,92K
Ideen om at det har vært en slik "talentflukt" fra OpenAI nylig at de ikke lenger er posisjonert til å være ledende i rommet, er omtrent like misforstått og feil som ideen om at GPT-5 "var en stor flopp og modellen er ikke så stor og er veldig inkrementell."
Ikke bare er GPT-5 Pro den smarteste modellen i verden nå i veldig stor grad på de mest utfordrende oppgavene i den virkelige verden (spesielt kodeoppgaver, som har størst økonomisk betydning nå), men det nye codex cli-verktøyet fra OpenAI er utrolig godt utført.
De gikk fra en fjern 3.-plass i koding av cli-verktøy til å ha det som uten tvil er det beste som finnes nå (merk at jeg fortsatt liker og bruker Claude Code, det er ikke enten/eller!), med den desidert beste ytelsen, laveste ventetiden osv.
Og nå er dette cli-verktøyet kombinert med den beste kodemodellen som har den beste påliteligheten for verktøyanrop og den beste sammenhengen for lange oppgaver, med minst mulig hallusinasjoner.
Og unødvendig å si at iOS-appen deres også er dramatisk bedre enn alle andre AI-apper når det gjelder polering og funksjoner. Claude-appen er bare webappen i en Safari-sandkasse! Og webappen deres er også fortsatt den beste. Ting som søk fungerer bare bedre enn i andre apper. Grunnleggende blokkering og takling.
Så, ja. Noen veldig smarte mennesker som Ilya og John Schulman dro til andre selskaper. Men de har fortsatt et helt fantastisk teknisk team med utrolig gode produktfolk og fantastiske ingeniører.
Ikke la din avsky for Altman gjøre deg blind for det åpenbare. Hver gang jeg ser enda en person snakke om hvor dårlig GPT-5 er, kryper jeg sammen, fordi personen viser at de ikke kan tenke selv basert på bevis og fornuft, og ble medet til å tenke en mening (og spytte den ut på nettet) fordi de tror det får dem til å høres smarte ut.
34,03K
Som en oppdatering til mine to nylige tråder om bruk av GPT-5 Pro for å starte en prosess for å oppdage banebrytende teorier som kombinerer nye anvendelser av avansert matematikk AI-brukstilfellene, fikk jeg modellen til å lage demoimplementeringer i Python ved hjelp av Jax og Numpy for hver av de 11 ideene.
Så satte jeg dem sammen i et prosjekt og la til en fin CLI for å kjøre dem, og en serie ende-til-ende-tester som målte om koden er matematisk korrekt, sjekker at koden har de matematiske egenskapene vi ønsker, og til slutt, om den gjør noe nyttig i forhold til dagens standardtilnærminger.
Jeg brukte codex CLI med GPT-5 for å integrere alt og fikse og feil. Jeg vil lenke til repoen, som inneholder detaljert dokumentasjon for hele prosjektet og deretter oppskrifter for hver av de 11 demoene som inneholder alle utdataene generert av modellen under prosessen.
3,8K
Wow, jeg fikk endelig prøvd den nye versjonen av OpenAIs codex CLI (deres svar på Claude Code).
Sist gang jeg prøvde å bruke codex (merk at dette er forskjellig fra deres vertskodeagent også kalt codex, noe som er ekstremt forvirrende; Jeg snakker nå om verktøyet du kjører lokalt på maskinen din i terminalen), det ble skrevet som en Nodejs/Typescript-app, og sugde virkelig:
- Kunne bare få tilgang til svakere modeller som O4-Mini eller deres variant for Codex, forvirrende nok også kalt Codex (seriøst?)
- mye dårligere UI/UX enn Claude Code
- Mye dårligere til å kode som følge av dårligere modell, dårligere verktøy, dårligere agentflyt.
- Det tvang deg irriterende nok til å gi tillatelse til alt, så du måtte sitte barnevakt for det hele tiden, noe som gjorde det mye mindre nyttig fordi du ikke aktivt kunne kjøre en haug av dem parallelt enkelt.
- Kanskje det var en god ting, for det desidert største problemet var at det gjorde superhensynsløse, destruktive ting; den var mye mer nonchalant enn CC.
Det er til syvende og sist grunnen til at jeg umiddelbart sluttet å bruke den, siden den bestemte seg for å gjøre en "git reset --hard HEAD" uten å gjemme først, og jeg mistet litt arbeid. Aldri mer, tenkte jeg.
Vel, jeg fikk endelig prøvd den helt nye rustversjonen som bruker GPT-5 og som kan bruke ditt eksisterende GPT Pro-abonnement i stedet for en API-nøkkel, og dette er så mye bedre at det er sjokkerende.
For det første er det rett og slett ingen erstatning for rask kompilert kode når det kommer til interaktive verktøy som dette.
Det faktum at det er skrevet i rust betyr at det ikke er noe etterslep i det hele tatt med tastaturinngang, og heller ingen rare artefakter som du har i CC der backspace ikke fungerer riktig og input er janky og laggy fordi det er skrevet i et tolket språk som er hundre ganger tregere for ting som dette.
Å håndtere konstant etterslep og jank er ikke bare tregere, det er mentalt og kanskje til og med følelsesmessig belastende og slitsomt, i hvert fall for meg når jeg bruker disse tingene i timevis. Det er en forferdelig følelse å hate og mislike verktøyene dine, selv om du er avhengig av dem for å gjøre jobben din.
Jeg håper virkelig dette hever standarden for alle disse verktøyene og overbeviser Anthropic og Google og andre om også å bruke rust (eller C++, Zig, hva som helst).
Men den virkelig store forbedringen er åpenbart modellen; med en dårligere modell som er upålitelig ved verktøykall og som mister sammenheng over lengre oppgaver, ville ingenting av Rust-snappiness være verdt en pokker.
Men hvis du følger meg her, vil du vite at jeg har vært i ærefrykt for GPT-5 Thinkings kodingsevner og verktøyanropsdyktighet siden omtrent 15 minutter etter at den kom ut, selv om jeg først og fremst har brukt den fra Cursors agentfane.
Poenget er at denne nye rustkodeksen plutselig har blitt en virkelig formidabel konkurrent til CC, og du bør absolutt prøve den.
Jeg må se hvor mye bruk de lar meg slippe unna med på mitt $200/måned GPT Pro-abonnement, men hvis jeg må få et par til, vil det være vel verdt det.
Merk at jeg ikke har sluttet å bruke CC. Jeg liker å bruke begge sammen. Og tro det eller ei, jeg bruker fortsatt også Cursor.
Folk bør slutte å lete etter det ene verktøyet som erstatter alle andre og omfavne at forskjellige verktøy har forskjellige styrker og svakheter, og du får de beste resultatene ved å lære alt dette intuitivt fra konstant bruk.
Uansett, gjør deg selv en tjeneste og få den nå. Den enkleste måten er å gjøre denne kommandoen (merk at dette vil gi deg rustversjonen, til tross for hvor forvirrende det er å bruke bun/npm til dette):
bun i -g @openai/kodeks
8,58K
Wow, jeg fikk endelig prøvd den nye versjonen av OpenAIs codex CLI (deres svar på Claude Code).
Sist gang jeg prøvde å bruke codex (merk at dette er forskjellig fra deres vertskodeagent også kalt codex, noe som er ekstremt forvirrende; Jeg snakker nå om verktøyet du kjører lokalt på maskinen din i terminalen), det ble skrevet som en Nodejs/Typescript-app, og sugde virkelig:
- Kunne bare få tilgang til svakere modeller som O4-Mini eller deres variant for Codex, forvirrende nok også kalt Codex (seriøst?)
- mye dårligere UI/UX enn Claude Code
- Mye dårligere til å kode som følge av dårligere modell, dårligere verktøy, dårligere agentflyt.
- Det tvang deg irriterende nok til å gi tillatelse til alt, så du måtte sitte barnevakt for det hele tiden, noe som gjorde det mye mindre nyttig fordi du ikke aktivt kunne kjøre en haug av dem parallelt enkelt.
- Kanskje det var en god ting, for det desidert største problemet var at det gjorde superhensynsløse, destruktive ting; den var mye mer nonchalant enn CC. Det er til syvende og sist grunnen til at jeg umiddelbart sluttet å bruke den, siden den bestemte seg for å gjøre en "tilbakestilling --hard HEAD" uten å gjemme først, og jeg mistet noe arbeid. Aldri mer, tenkte jeg.
Vel, jeg fikk endelig prøvd den helt nye rustversjonen som bruker GPT-5 og som kan bruke ditt eksisterende GPT Pro-abonnement i stedet for en API-nøkkel, og dette er så mye bedre at det er sjokkerende.
For det første er det rett og slett ingen erstatning for rask kompilert kode når det kommer til interaktive verktøy som dette.
Det faktum at det er skrevet i rust betyr at det ikke er noe etterslep i det hele tatt med tastaturinngang, og heller ingen rare artefakter som du har i CC der backspace ikke fungerer riktig og input er janky og laggy fordi det er skrevet i et tolket språk som er hundre ganger tregere for ting som dette.
Å håndtere konstant etterslep og jank er ikke bare tregere, det er mentalt og kanskje til og med følelsesmessig belastende og slitsomt, i hvert fall for meg når jeg bruker disse tingene i timevis. Det er en forferdelig følelse å hate og mislike verktøyene dine, selv om du er avhengig av dem for å gjøre jobben din.
Jeg håper virkelig dette hever standarden for alle disse verktøyene og overbeviser Anthropic og Google og andre om også å bruke rust (eller C++, Zig, hva som helst).
Men den virkelig store forbedringen er åpenbart modellen; med en dårligere modell som er upålitelig ved verktøykall og som mister sammenheng over lengre oppgaver, ville ingenting av Rust-snappiness være verdt en pokker.
Men hvis du følger meg her, vil du vite at jeg har vært i ærefrykt for GPT-5 Thinkings kodingsevner og verktøyanropsdyktighet siden omtrent 15 minutter etter at den kom ut, selv om jeg først og fremst har brukt den fra Cursors agentfane.
Poenget er at denne nye rustkodeksen plutselig har blitt en virkelig formidabel konkurrent til CC, og du bør absolutt prøve den.
Jeg må se hvor mye bruk de lar meg slippe unna med på mitt $200/måned GPT Pro-abonnement, men hvis jeg må få et par til, vil det være vel verdt det.
Merk at jeg ikke har sluttet å bruke CC. Jeg liker å bruke begge sammen. Og tro det eller ei, jeg bruker fortsatt også Cursor.
Folk bør slutte å lete etter det ene verktøyet som erstatter alle andre og omfavne at forskjellige verktøy har forskjellige styrker og svakheter, og du får de beste resultatene ved å lære alt dette intuitivt fra konstant bruk.
Uansett, gjør deg selv en tjeneste og få den nå. Den enkleste måten er å gjøre denne kommandoen (merk at dette vil gi deg rustversjonen, til tross for hvor forvirrende det er å bruke bun/npm til dette):
bun i -g @openai/kodeks
694
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til