本週,Baseten 的模型性能團隊在 @nvidia 硬體上解鎖了 gpt-oss 120b 的最快 TPS 和 TTFT。當 gpt-oss 上線時,我們迅速提供了 450 TPS... 現在我們已經超過了 650 TPS 和 0.11 秒 TTFT... 我們將繼續努力,不斷提升標準。 我們自豪地提供最佳的 E2E 延遲,具備近乎無限的擴展性、驚人的性能和最高的正常運行時間 99.99%。