Tento týden tým pro výkon modelů společnosti Baseten odemkl nejrychlejší TPS a TTFT pro gpt-oss 120b na hardwaru @nvidia. Když byl gpt-oss spuštěn, sprintovali jsme, abychom jej nabídli na 450 TPS ... nyní jsme překročili 650 TPS a 0,11 s TTFT... A budeme dál pracovat na tom, abychom laťku zvyšovali. Jsme hrdí na to, že můžeme nabídnout nejlepší dostupnou latenci E2E s téměř neomezeným škálováním, neuvěřitelným výkonem a nejvyšší dostupností 99,99 %.