Цього тижня команда продуктивності моделей Baseten розблокувала найшвидші TPS і TTFT для gpt-oss 120b на апаратному забезпеченні @nvidia. Коли gpt-oss був запущений, ми кинулися пропонувати його за ціною 450 TPS... тепер ми перевищили 650 TPS і 0,11 sec TTFT... І ми продовжуватимемо працювати над тим, щоб продовжувати піднімати планку. Ми пишаємося тим, що пропонуємо найкращу доступну затримку E2E з майже безмежним масштабом, неймовірною продуктивністю та найвищим часом безвідмовної роботи 99,99%.