Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jeffrey Emanuel
Trochu jsem se ztratil ve všech těch zkratkách a žargonu, takže jsem si nechal od Clauda vysvětlit bez použití zkratek a teď to všechno dává dokonalý smysl (tldr; šířka pásma ⟹ jednoduchost):
Toto je fascinující technická diskuse o trénování velkých jazykových modelů ve velkém měřítku.
Základní konverzace
Jingyuan Liu vyjadřuje překvapení nad zjištěním, že při používání TPU (Tensor Processing Units - specializované AI čipy Google) oproti GPU (Graphics Processing Units - typicky čipy NVIDIA) nepotřebujete určité složité optimalizační techniky.
Vysvětlení klíčových technických pojmů:
Typy hardwaru:
•GPU (Graphics Processing Unit): Původně navržený pro grafiku, nyní se hojně používá pro umělou inteligenci. NVIDIA tomuto trhu dominuje.
•TPU (Tensor Processing Unit): Čipy navržené na míru společnosti Google speciálně pro strojové učení.
Strategie paralelismu:
Při trénování masivních modelů umělé inteligence je potřeba rozdělit práci na mnoho čipů. To lze provést několika způsoby:
1) Datový paralelismus (DP): Každý čip zpracovává různé dávky dat se stejnou kopií modelu
2) Tenzorový paralelismus (TP): Matematické operace modelu jsou rozděleny mezi čipy
3) Paralelismus potrubí (PP): Různé vrstvy modelu jsou umístěny na různých čipech, čímž se vytvoří potrubí
Diskutovaná technická výzva:
Problém pomocných ztrát: Při trénování velmi velkých modelů často přidáváte "pomocné ztráty" (dodatečné cíle trénování) do mezilehlých vrstev, aby gradienty lépe proudily sítí. Při omezeních PPVP (Pipeline Parallelism with Variable Partitioning) se to stává složitým, protože:
•Musíte provést "all f all b" (všechny průchody vpřed, pak všechny průchody vzad)
•To je náročné pro špičkové využití paměti, protože je nutné ukládat mezivýsledky
Inovace DeepSeek: Vyvinuli design "auxfree bias", který se zjevně vyhýbá potřebě těchto pomocných ztrát a přitom stále efektivně trénuje.
Překvapivé odhalení:
Starší odborník řekl Jingyuanovi, že s TPU v měřítku K2 nebo DSV3 (jedná se o konfigurace clusterů se stovkami nebo tisíci čipů) můžete dosáhnout vynikajícího MFU (využití modelových flopů - v podstatě jak efektivně používáte hardware) BEZ použití Pipeline Parallelism.
Proč je to překvapivé?
•Paralelismus zřetězení je obvykle považován za nezbytný pro rozsáhlé školení
•Jedná se o složitou techniku, která vyžaduje pečlivou optimalizaci
•Schopnost vyhnout se tomu vše výrazně zjednodušuje
Vysvětlení Horace He:
Vysvětluje, PROČ je to možné s TPU:
Výhoda šířky pásma: TPU a high-end clustery NVIDIA (jako NVL72 - nejnovější konfigurace NVIDIA se 72 GPU s propojením NVLink) mají tak velkou šířku pásma mezi čipy, že zvládnou komunikační požadavky bez paralelismu Pipeline.
Klíčový poznatek:
•Pipeline Parallelism je primárně potřeba, když jste "úzkým hrdlem DP komunikace" (omezeno rychlostí komunikace během tréninku datové paralely)
•Pokud máte dostatečnou šířku pásma v dostatečně velké doméně (propojeném clusteru), můžete použít jednodušší paralelistické strategie
•To funguje "po velmi dlouhou dobu" - to znamená, že můžete trénovat i velmi velké modely, aniž byste narazili na limity
Intuice:
Představte si to jako dálniční systém:
•Tradiční GPU clustery se podobají úzkým silnicím mezi městy, takže potřebujete složité směrování (Pipeline Parallelism), abyste se vyhnuli dopravním zácpám
•TPU clustery nebo GPU připojené k NVLink jsou jako masivní superdálnice - vše můžete jednoduše poslat přímo bez efektního směrování
To je velký problém, protože paralelismus kanálů je složité implementovat, ladit a optimalizovat. Díky možnosti vyhnout se tomu a zároveň dosáhnout vysoké efektivity je celý proces školení mnohem jednodušší a spolehlivější.
Diskuse zdůrazňuje, jak pokroky v technologii hardwarového propojení ("cesty" mezi čipy) mohou zásadně změnit softwarové strategie potřebné pro efektivní trénink AI.

3,09K
Trochu jsem se ztratil ve všech těch zkratkách a žargonu, takže jsem si nechal od Clauda vysvětlit bez použití zkratek a teď to všechno dává dokonalý smysl (tldr; šířka pásma ⟹ jednoduchost):
Toto je fascinující technická diskuse o trénování velkých jazykových modelů ve velkém měřítku.
Základní konverzace
Jingyuan Liu vyjadřuje překvapení nad zjištěním, že při používání TPU (Tensor Processing Units - specializované AI čipy Google) oproti GPU (Graphics Processing Units - typicky čipy NVIDIA) nepotřebujete určité složité optimalizační techniky.
Vysvětlení klíčových technických pojmů:
Typy hardwaru:
•GPU (Graphics Processing Unit): Původně navržený pro grafiku, nyní se hojně používá pro umělou inteligenci. NVIDIA tomuto trhu dominuje.
•TPU (Tensor Processing Unit): Čipy navržené na míru společnosti Google speciálně pro strojové učení.
Strategie paralelismu:
Při trénování masivních modelů umělé inteligence je potřeba rozdělit práci na mnoho čipů. To lze provést několika způsoby:
1Datový paralelismus (DP): Každý čip zpracovává různé dávky dat se stejnou kopií modelu
2Tenzorový paralelismus (TP): Matematické operace modelu jsou rozděleny mezi čipy
3Potrubní paralelismus (PP): Různé vrstvy modelu jsou umístěny na různých čipech, čímž se vytvoří potrubí
Diskutovaná technická výzva:
Problém pomocných ztrát: Při trénování velmi velkých modelů často přidáváte "pomocné ztráty" (dodatečné cíle trénování) do mezilehlých vrstev, aby gradienty lépe proudily sítí. Při omezeních PPVP (Pipeline Parallelism with Variable Partitioning) se to stává složitým, protože:
•Musíte provést "all f all b" (všechny průchody vpřed, pak všechny průchody vzad)
•To je náročné pro špičkové využití paměti, protože je nutné ukládat mezivýsledky
Inovace DeepSeek: Vyvinuli design "auxfree bias", který se zjevně vyhýbá potřebě těchto pomocných ztrát a přitom stále efektivně trénuje.
Překvapivé odhalení:
Starší odborník řekl Jingyuanovi, že s TPU v měřítku K2 nebo DSV3 (jedná se o konfigurace clusterů se stovkami nebo tisíci čipů) můžete dosáhnout vynikajícího MFU (využití modelových flopů - v podstatě jak efektivně používáte hardware) BEZ použití Pipeline Parallelism.
Proč je to překvapivé?
•Paralelismus zřetězení je obvykle považován za nezbytný pro rozsáhlé školení
•Jedná se o složitou techniku, která vyžaduje pečlivou optimalizaci
•Schopnost vyhnout se tomu vše výrazně zjednodušuje
Vysvětlení Horace He:
Vysvětluje, PROČ je to možné s TPU:
Výhoda šířky pásma: TPU a high-end clustery NVIDIA (jako NVL72 - nejnovější konfigurace NVIDIA se 72 GPU s propojením NVLink) mají tak velkou šířku pásma mezi čipy, že zvládnou komunikační požadavky bez paralelismu Pipeline.
Klíčový poznatek:
•Pipeline Parallelism je primárně potřeba, když jste "úzkým hrdlem DP komunikace" (omezeno rychlostí komunikace během tréninku datové paralely)
•Pokud máte dostatečnou šířku pásma v dostatečně velké doméně (propojeném clusteru), můžete použít jednodušší paralelistické strategie
•To funguje "po velmi dlouhou dobu" - to znamená, že můžete trénovat i velmi velké modely, aniž byste narazili na limity
Intuice:
Představte si to jako dálniční systém:
•Tradiční GPU clustery se podobají úzkým silnicím mezi městy, takže potřebujete složité směrování (Pipeline Parallelism), abyste se vyhnuli dopravním zácpám
•TPU clustery nebo GPU připojené k NVLink jsou jako masivní superdálnice - vše můžete jednoduše poslat přímo bez efektního směrování
To je velký problém, protože paralelismus kanálů je složité implementovat, ladit a optimalizovat. Díky možnosti vyhnout se tomu a zároveň dosáhnout vysoké efektivity je celý proces školení mnohem jednodušší a spolehlivější.
Diskuse zdůrazňuje, jak pokroky v technologii hardwarového propojení ("cesty" mezi čipy) mohou zásadně změnit softwarové strategie potřebné pro efektivní trénink AI.

1,58K
Trochu mě překvapuje, že ještě nikdo nevytvořil MCP server pro Dwarf Fortress, který by umožnil agentům jako Codex nebo Claude Code efektivně ovládat hru a sledovat stav a pokrok.
Sám jsem to nikdy pořádně nehrál, jen jsem si to stáhl a krátce vyzkoušel asi před 10 lety, ale rád jsem si o tom přečetl.
Připadá mi, že by to byl velmi dobrý test LLM, aby se zjistilo, jak dlouho by to dokázalo udržet trpaslíky naživu a prosperovat.
Protože každá hra nakonec vyústí v nějakou kaskádovou katastrofu, která způsobí smrt všech trpaslíků, měla by existovat přirozená stopka, což z ní dělá dobrého kandidáta na měřítko. Alespoň tak to chápu já (motto hráčů je "Prohra je zábava").
Dobrá práce s těmito hrami by se opírala o přesnost volání nástrojů a trvalou soudržnost dlouhých úloh, plus schopnost sledovat a chápat dynamiku složitého systému a včas zasahovat, které předvídají a působí proti problémům.
A protože je nativní pro terminál, mohl by být efektivně přenášen a zpracováván pomocí běžných tokenů bez nutnosti multimodálního zpracování obrazu, což by jej učinilo mnohem efektivnějším než jiné hry.
Navíc víte, že na to (zatím!) žádné laboratoře umělé inteligence netrénovaly, takže to není poskvrněno "benchmaxxingem".

3,79K
Zábavná věc, kterou můžete udělat, když potřebujete počkat několik minut, je použít telefon a zeptat se Clauda Opuse na následující otázku o nějaké náhodné disciplíně nebo oboru:
"Co byste řekl, že je jádrem vhledu nebo analytického triku krystalografie?"
Nahraďte krystalografii čímkoliv, co vás napadne. Zatím jsem vyzkoušel:
QED; standardní model; Biochemie; Pravděpodobnost; Evoluční teorie; a mnoho dalších.
Na tom, když donutíte model dělat nemožné, zhustit obrovské, složité pole do "jednoho podivného triku", je něco, co ho přiměje skutečně hledat nejlepší hluboký, sjednocující princip v oboru a pak ho stručně formulovat.
To bývá něco, co je zřejmé praktikujícím, ale velmi pravděpodobně to bude neznámé většině lidí s jen letmým zájmem o toto téma.
Zajímavé je, že můžete také opakovaně stisknout tlačítko "opakovat" se stejnou výzvou a někdy získat velmi odlišná, ale obvykle velmi fascinující vysvětlení.
Už jsem se tím hodně naučil a možná je to právě nejvyšší "porozumění za minutu", se kterým jsem se setkal při jakémkoli sebeřízeném učení.
Protože to nejsou jen zábavná fakta nebo skvělé lahůdky. Jsou to konstruované, pronikavé a sjednocující myšlenky, které spojují dohromady obrovské množství teorií a pozorovaných jevů ve světě.
Je to určitě mnohem větší šířka pásma než sledování dalšího vysvětlujícího videa na YouTube s animacemi a reklamami na Brilliant/KiwiCo! Ne že by na nich bylo něco špatného.




7,9K
Představa, že ze strany OpenAI v poslední době došlo k takovému "exodu talentů", že již nejsou v pozici, aby byla lídrem v této oblasti, je asi tak zavádějící a mylná jako představa, že GPT-5 "byl velký propadák a model není tak skvělý a je velmi přírůstkový".
Nejenže je GPT-5 Pro nyní do značné míry nejchytřejším modelem na světě pro nejnáročnější úlohy v reálném světě (zejména pro kódovací úlohy, které mají nyní největší ekonomický význam), ale nový nástroj codex cli od OpenAI je neuvěřitelně dobře proveden.
Ze vzdáleného 3. místa v kódování nástrojů cli se dostali k tomu, co je nyní pravděpodobně nejlepší (všimněte si, že se mi stále líbí a používám Claude Code, není to buď/anebo!), s zdaleka nejlepším výkonem, nejnižší latencí atd., protože je naprogramován v rzi.
A nyní je tento nástroj cli kombinován s nejlepším kódovacím modelem, který má nejlepší spolehlivost volání nástrojů a nejlepší koherenci pro dlouhodobé úlohy, s nejmenším množstvím halucinací.
A netřeba dodávat, že jejich aplikace pro iOS je také dramaticky lepší než všechny ostatní aplikace AI, pokud jde o lesk a funkce. Aplikace Claude je jen webová aplikace v pískovišti Safari! A jejich webová aplikace je také stále nejlepší. Věci jako vyhledávání prostě fungují lépe než v jiných aplikacích. Základní blokování a obranné zákroky.
Takže ano. Někteří velmi chytří lidé jako Ilya a John Schulman odešli do jiných společností. Ale stále mají naprosto úžasný technický tým s neuvěřitelně dobrými produktovými lidmi a úžasnými inženýrskými kousky.
Nedovolte, aby vás vaše nechuť k Altmanovi zaslepila vůči tomu, co je zřejmé. Kdykoli vidím, jak další člověk mluví o tom, jak špatný je GPT-5, krčím se, protože ten člověk ukazuje, že nedokáže myslet sám za sebe na základě důkazů a rozumu, a nechal se namluvit k tomu, aby si myslel názor (a chrlil ho online), protože si myslí, že to zní chytře.
34,01K
V rámci aktualizace mých dvou nedávných vláken o použití GPT-5 Pro k zahájení procesu objevování průlomových teorií, které kombinují nové aplikace pokročilé matematiky a případů použití umělé inteligence, jsem nechal model vytvořit demo implementace v Pythonu pomocí Jaxe a Numpyho pro každý z 11 nápadů.
Pak jsem je dal dohromady do projektu a přidal pěkné CLI pro jejich spuštění a sérii end-to-end testů, které měřily, zda je kód matematicky správný, kontrolovaly, zda má kód matematické vlastnosti, které chceme, a nakonec, zda dělá něco užitečného oproti současným standardním přístupům.
Použil jsem codex CLI s GPT-5 k integraci všeho, oprav a chyb. Odkazuji na repo, které obsahuje podrobnou dokumentaci k celému projektu a poté zápisy pro každou z 11 ukázek, které obsahují veškerý výstup generovaný modelem během procesu.
3,79K
Páni, konečně jsem se dostal k tomu, abych vyzkoušel novou verzi kodexu CLI OpenAI (jejich odpověď na Claude Code).
Naposledy jsem zkoušel použít codex (všimněte si, že se to liší od jejich hostovaného kódovacího agenta nazývaného také codex, což je extrémně matoucí; Teď mluvím o nástroji, který spouštíte lokálně na svém počítači v terminálu), byl napsán jako aplikace Nodejs/Typescript a opravdu byl trochu na:
- Mohl jsem se dostat pouze ke slabším modelům jako je O4-Mini nebo jejich varianta pro Codex, matoucí také nazývaná Codex (vážně?)
- mnohem horší UI/UX než Claude Code
- mnohem horší kódování v důsledku horšího modelu, horších nástrojů, horšího toku agentů.
- Otravně vás to nutilo dávat svolení ke všemu, takže jste to museli neustále hlídat, takže to bylo mnohem méně užitečné, protože jste nemohli aktivně spouštět spoustu z nich paralelně snadno.
- Možná to ale byla dobrá věc, protože zdaleka největší problém byl, že to dělalo super bezohledné, destruktivní věci; bylo to mnohem kavalírštější než CC.
To je nakonec důvod, proč jsem ho okamžitě přestal používat, protože se rozhodl provést "git reset --hard HEAD" bez předchozího odkládání a já přišel o část práce. Už nikdy, pomyslela jsem si.
No, konečně jsem se dostal k vyzkoušení zcela nové verze rust, která používá GPT-5 a která může místo klíče API používat vaše stávající předplatné GPT Pro, a to je mnohem lepší, až je to šokující.
Za prvé, pokud jde o interaktivní nástroje, jako je tento, jednoduše neexistuje žádná náhrada za rychle zkompilovaný kód.
Skutečnost, že je to napsáno v rustu, znamená, že nedochází vůbec k žádnému zpoždění při vstupu z klávesnice a také k žádným podivným artefaktům, jako máte v CC, kde backspace nefunguje správně a vstup je trhaný a zpožděný, protože je napsán v interpretovaném jazyce, který je pro takové věci stokrát pomalejší.
Vypořádat se s neustálým zpožděním a hloupostí není jen pomalejší, je to mentálně a možná i emocionálně náročné a únavné, alespoň pro mě, když tyto věci používám celé hodiny. Je to hrozný pocit nenávidět a nenávidět své nástroje, i když jste na nich závislí.
Opravdu doufám, že to zvedne laťku pro všechny tyto nástroje a přesvědčí Anthropic a Google a další, aby také používali rust (nebo C++, Zig, cokoli).
Opravdu velkým zlepšením je však samozřejmě model; s horším modelem, který je nespolehlivý při volání nástrojů a který ztrácí soudržnost při delších úkolech, by žádná z Rustových svižností nestála za to.
Ale pokud mě budete sledovat zde, pak budete vědět, že jsem byl v úžasu nad kódovacími schopnostmi a schopností GPT-5 Thinking volat nástroje asi 15 minut poté, co vyšel, i když jsem jej používal především z karty agenta Cursoru.
Sečteno a podtrženo, tento nový rezavý kodex se náhle stal skutečně impozantním konkurentem CC a rozhodně byste ho měli vyzkoušet.
Budu muset zjistit, jak moc mě nechají využít mého předplatného GPT Pro za 200 $ měsíčně, ale pokud si budu muset pořídit ještě pár dalších, bude to stát za to.
Všimněte si, že jsem nepřestal používat CC. Rád používám oba dohromady. A věřte nebo ne, stále používám i Cursor.
Lidé by měli přestat hledat jeden jediný nástroj, který nahrazuje všechny ostatní, a přijmout, že různé nástroje mají různé silné a slabé stránky a že nejlepších výsledků dosáhnete, když se to vše naučíte intuitivně neustálým používáním.
Každopádně udělejte si laskavost a pořiďte si ji hned. Nejjednodušší způsob je provést tento příkaz (všimněte si, že tím získáte verzi rez, navzdory tomu, jak matoucí je k tomu používat bun/npm):
BUN I -G @openai/kodex
8,55K
Páni, konečně jsem se dostal k tomu, abych vyzkoušel novou verzi kodexu CLI OpenAI (jejich odpověď na Claude Code).
Naposledy jsem zkoušel použít codex (všimněte si, že se to liší od jejich hostovaného kódovacího agenta nazývaného také codex, což je extrémně matoucí; Teď mluvím o nástroji, který spouštíte lokálně na svém počítači v terminálu), byl napsán jako aplikace Nodejs/Typescript a opravdu byl trochu na:
- Mohl jsem se dostat pouze ke slabším modelům jako je O4-Mini nebo jejich varianta pro Codex, matoucí také nazývaná Codex (vážně?)
- mnohem horší UI/UX než Claude Code
- mnohem horší kódování v důsledku horšího modelu, horších nástrojů, horšího toku agentů.
- Otravně vás to nutilo dávat svolení ke všemu, takže jste to museli neustále hlídat, takže to bylo mnohem méně užitečné, protože jste nemohli aktivně spouštět spoustu z nich paralelně snadno.
- Možná to ale byla dobrá věc, protože zdaleka největší problém byl, že to dělalo super bezohledné, destruktivní věci; bylo to mnohem kavalírštější než CC. To je nakonec důvod, proč jsem ho okamžitě přestal používat, protože se rozhodl provést "reset --hard HEAD" bez předchozího schovávání a já přišel o nějakou práci. Už nikdy, pomyslela jsem si.
No, konečně jsem se dostal k vyzkoušení zcela nové verze rust, která používá GPT-5 a která může místo klíče API používat vaše stávající předplatné GPT Pro, a to je mnohem lepší, až je to šokující.
Za prvé, pokud jde o interaktivní nástroje, jako je tento, jednoduše neexistuje žádná náhrada za rychle zkompilovaný kód.
Skutečnost, že je to napsáno v rustu, znamená, že nedochází vůbec k žádnému zpoždění při vstupu z klávesnice a také k žádným podivným artefaktům, jako máte v CC, kde backspace nefunguje správně a vstup je trhaný a zpožděný, protože je napsán v interpretovaném jazyce, který je pro takové věci stokrát pomalejší.
Vypořádat se s neustálým zpožděním a hloupostí není jen pomalejší, je to mentálně a možná i emocionálně náročné a únavné, alespoň pro mě, když tyto věci používám celé hodiny. Je to hrozný pocit nenávidět a nenávidět své nástroje, i když jste na nich závislí.
Opravdu doufám, že to zvedne laťku pro všechny tyto nástroje a přesvědčí Anthropic a Google a další, aby také používali rust (nebo C++, Zig, cokoli).
Opravdu velkým zlepšením je však samozřejmě model; s horším modelem, který je nespolehlivý při volání nástrojů a který ztrácí soudržnost při delších úkolech, by žádná z Rustových svižností nestála za to.
Ale pokud mě budete sledovat zde, pak budete vědět, že jsem byl v úžasu nad kódovacími schopnostmi a schopností GPT-5 Thinking volat nástroje asi 15 minut poté, co vyšel, i když jsem jej používal především z karty agenta Cursoru.
Sečteno a podtrženo, tento nový rezavý kodex se náhle stal skutečně impozantním konkurentem CC a rozhodně byste ho měli vyzkoušet.
Budu muset zjistit, jak moc mě nechají využít mého předplatného GPT Pro za 200 $ měsíčně, ale pokud si budu muset pořídit ještě pár dalších, bude to stát za to.
Všimněte si, že jsem nepřestal používat CC. Rád používám oba dohromady. A věřte nebo ne, stále používám i Cursor.
Lidé by měli přestat hledat jeden jediný nástroj, který nahrazuje všechny ostatní, a přijmout, že různé nástroje mají různé silné a slabé stránky a že nejlepších výsledků dosáhnete, když se to vše naučíte intuitivně neustálým používáním.
Každopádně udělejte si laskavost a pořiďte si ji hned. Nejjednodušší způsob je provést tento příkaz (všimněte si, že tím získáte verzi rez, navzdory tomu, jak matoucí je k tomu používat bun/npm):
BUN I -G @openai/kodex
668
Jsem naprosto přesvědčen, že nejchytřejší modely umělé inteligence, které jsou nyní k dispozici, GPT-5 Pro a Grok4 Heavy, jsou již dostatečně chytré a jistě dostatečně informované o matematice a umělé inteligenci, aby vymyslely a rozvinuly důležité teoretické a praktické objevy, pokud dostanou správný druh chytrého pobídnutí.
47,97K
Top
Hodnocení
Oblíbené
Co je v trendu on-chain
Populární na X
Nejvyšší finanční vklady v poslední době
Nejpozoruhodnější