Questa settimana, il team delle prestazioni del modello di Baseten ha sbloccato il TPS e il TTFT più veloci per gpt-oss 120b su hardware @nvidia. Quando gpt-oss è stato lanciato, abbiamo corso per offrirlo a 450 TPS... ora abbiamo superato i 650 TPS e 0,11 sec di TTFT... e continueremo a lavorare per alzare ulteriormente l'asticella. Siamo orgogliosi di offrire la migliore latenza E2E disponibile con una scalabilità quasi illimitata, prestazioni incredibili e il massimo uptime del 99,99%.