Deze week heeft het modelprestatieteam van Baseten de snelste TPS en TTFT ontgrendeld voor gpt-oss 120b op @nvidia-hardware. Toen gpt-oss werd gelanceerd, hebben we ons ingespannen om het aan te bieden met 450 TPS... nu hebben we 650 TPS en 0,11 sec TTFT overschreden... en we blijven werken om de lat hoger te leggen. We zijn er trots op de beste E2E-latentie aan te bieden met bijna onbeperkte schaal, ongelooflijke prestaties en de hoogste uptime van 99,99%.