Săptămâna aceasta, echipa de performanță a modelului Baseten a deblocat cele mai rapide TPS și TTFT pentru gpt-oss 120b pe hardware-ul @nvidia. Când s-a lansat gpt-oss, am sprintat să-l oferim la 450 TPS... acum am depășit 650 TPS și 0.11 sec TTFT... Și vom continua să lucrăm pentru a continua să ridicăm ștacheta. Suntem mândri să oferim cea mai bună latență E2E disponibilă, cu o scară aproape nelimitată, performanțe incredibile și cel mai mare timp de funcționare de 99,99%.