Esta semana, a equipe de desempenho do modelo da Baseten desbloqueou o TPS e TTFT mais rápidos para gpt-oss 120b em hardware @nvidia. Quando o gpt-oss foi lançado, corremos para oferecê-lo a 450 TPS ... agora ultrapassamos 650 TPS e 0,11 seg TTFT ... E continuaremos trabalhando para continuar elevando o nível. Estamos orgulhosos de oferecer a melhor latência E2E disponível com escala quase ilimitada, desempenho incrível e o maior tempo de atividade de 99,99%.