OpenAI har precis installerat GPT-5.3-Codex-Spark på Cerebras wafer-scale-hårdvara och uppnått 1 000+ tokens per sekund — ungefär 10-20x snabbare än GPU-inferens. Detta är ingen inkrementell förbättring; Det är en grundläggande arkitektonisk förändring som gör realtidssamarbete med AI möjligt för första gången. --- FLASKHALSEN SOM INGEN PRATAR OM Här är den bittra hemligheten bakom AI-inferens: ditt GPU-kluster spenderar större delen av sin tid *inte med att beräkna*. När du kör en stor språkmodell på NVIDIA-GPU:er är de faktiska matrismultiplikationerna snabba. Det som dödar dig är: 1. Kommunikation mellan GPU:er — Att sharda en 175B+ parametermodell över 8 GPU:er innebär konstant dataomflyttning 2. Minnesbandbredd — HBM är snabbt, men det är fortfarande off-chip 3. Batchningsöverhead — GPU:er optimerar för genomströmning, inte latens, så de väntar med batchförfrågningar Resultatet? Även på toppmoderna H100 får du 50–150 tokens per sekund för frontier-modeller. Det är okej för asynkrona arbetsbelastningar. Det är fruktansvärt för interaktion i realtid. --- CEREBROR: EN OBFEL SOM STYR DEM ALLA Cerebras tog en radikalt annorlunda väg: bygg inte chip, bygg wafers. WSE-3 (Wafer Scale Engine 3) specifikationerna är häpnadsväckande: WSE-3 NVIDIA B200-förhållande Stansstorlek 46 255 mm² ~800 mm² 57x...