W tym tygodniu zespół ds. wydajności modelu Baseten odblokował najszybszy TPS i TTFT dla gpt-oss 120b na sprzęcie @nvidia. Kiedy gpt-oss został uruchomiony, ścigaliśmy się, aby zaoferować go przy 450 TPS... teraz przekroczyliśmy 650 TPS i 0,11 sek TTFT... i będziemy dalej pracować, aby podnosić poprzeczkę. Jesteśmy dumni, że możemy zaoferować najlepszą dostępną latencję E2E z niemal nieograniczoną skalą, niesamowitą wydajnością i najwyższą dostępnością 99,99%.