Esta semana, a equipa de desempenho de modelos da Baseten desbloqueou o TPS e TTFT mais rápidos para gpt-oss 120b em hardware @nvidia. Quando o gpt-oss foi lançado, corremos para oferecê-lo a 450 TPS... agora superámos 650 TPS e 0,11 seg TTFT... e continuaremos a trabalhar para elevar ainda mais a fasquia. Estamos orgulhosos de oferecer a melhor latência E2E disponível com escalabilidade quase ilimitada, desempenho incrível e a maior disponibilidade de 99,99%.