OpenAI tocmai a implementat GPT-5.3-Codex-Spark pe hardware-ul Cerebras la scară de plachete, atingând 1.000+ token-uri pe secundă — aproximativ 10-20x Mai rapid decât inferența GPU. Nu este o îmbunătățire incrementală; E un o schimbare arhitecturală fundamentală care face posibilă colaborarea AI în timp real pentru prima dată. --- GÂTUL DE STICLĂ DESPRE CARE NIMENI NU VORBEȘTE Iată secretul amar al inferenței AI: clusterul tău GPU petrece cea mai mare parte a timpului *fără să calculeze*. Când rulezi un model de limbaj mare pe plăci grafice NVIDIA, înmulțirile efective ale matricilor sunt rapide. Ce te omoară este: 1. Comunicare între GPU-uri — Fragmentarea unui model de parametri 175B+ pe 8 GPU-uri înseamnă amestecare constantă a datelor 2. Lățimea de bandă a memoriei — HBM este rapid, dar este tot off-chip 3. Overhead de batching — GPU-urile optimizează pentru debit, nu pentru latență, așa că așteaptă pentru a bate cererile în loturi Rezultatul? Chiar și pe modelele H100 de ultimă generație, te uiți la 50-150 jetoane pe secundă pentru modelele frontier. Este în regulă pentru sarcini asincrone. Este groaznic pentru interacțiunea în timp real. --- CEREBRAS: UN WAFER CARE SĂ-I CONDUCĂ PE TOȚI Cerebras a adoptat o abordare radical diferită: nu construi cipuri, construiește plachete. Specificațiile WSE-3 (Wafer Scale Engine 3) sunt uluitoare: WSE-3 NVIDIA B200 Raport Dimensiunea matriței 46.255 mm² ~800 mm² 57x...