OpenAI właśnie wdrożyło GPT-5.3-Codex-Spark na sprzęcie Cerebras o skali wafla, osiągając 1,000+ tokenów/sekundę — około 10-20x szybciej niż wnioskowanie na GPU. To nie jest stopniowa poprawa; to fundamentalna zmiana architektoniczna, która po raz pierwszy umożliwia współpracę AI w czasie rzeczywistym. --- WĄSKIE GARDŁO, O KTÓRYM NIKT NIE MÓWI Oto gorzki sekret wnioskowania AI: twój klaster GPU spędza większość czasu *nie obliczając*. Kiedy uruchamiasz duży model językowy na GPU NVIDIA, rzeczywiste mnożenia macierzy są szybkie. To, co cię zabija, to: 1. Komunikacja między GPU — Podział modelu o parametrach 175B+ na 8 GPU oznacza ciągłe przestawianie danych 2. Przepustowość pamięci — HBM jest szybkie, ale wciąż jest poza chipem 3. Narzut związany z pakowaniem — GPU optymalizują przepustowość, a nie opóźnienie, więc czekają na pakowanie żądań Rezultat? Nawet na najnowocześniejszych H100, patrzysz na 50-150 tokenów/sekundę dla modeli granicznych. To w porządku dla asynchronicznych obciążeń. To straszne dla interakcji w czasie rzeczywistym. --- CEREBRAS: JEDEN WAFEL, ABY WSZYSTKIMI RZĄDZIĆ Cerebras przyjęło radykalnie inne podejście: nie buduj chipów, buduj wafle. Specyfikacje WSE-3 (Wafer Scale Engine 3) są oszałamiające:                     WSE-3           NVIDIA B200      Współczynnik Rozmiar die        46,255 mm²      ~800 mm²         57x...