本周,Baseten 的模型性能团队在 @nvidia 硬件上解锁了 gpt-oss 120b 的最快 TPS 和 TTFT。当 gpt-oss 启动时,我们迅速提供了 450 TPS……现在我们已经超过了 650 TPS 和 0.11 秒 TTFT……我们将继续努力,不断提高标准。 我们自豪地提供最佳的端到端延迟,几乎无限的规模,令人难以置信的性能,以及最高的正常运行时间 99.99%。