Tuần này, đội ngũ hiệu suất mô hình của Baseten đã mở khóa TPS và TTFT nhanh nhất cho gpt-oss 120b trên phần cứng @nvidia. Khi gpt-oss ra mắt, chúng tôi đã chạy đua để cung cấp nó với 450 TPS... giờ đây chúng tôi đã vượt qua 650 TPS và 0.11 giây TTFT... và chúng tôi sẽ tiếp tục làm việc để nâng cao tiêu chuẩn. Chúng tôi tự hào cung cấp độ trễ E2E tốt nhất có sẵn với quy mô gần như không giới hạn, hiệu suất tuyệt vời và thời gian hoạt động cao nhất 99.99%.