Esta semana, el equipo de rendimiento de modelos de Baseten desbloqueó el TPS y TTFT más rápidos para gpt-oss 120b en hardware @nvidia. Cuando se lanzó gpt-oss, corrimos para ofrecerlo a 450 TPS ... ahora hemos superado los 650 TPS y 0,11 segundos de TTFT... Y seguiremos trabajando para seguir elevando el nivel. Estamos orgullosos de ofrecer la mejor latencia E2E disponible con una escala casi ilimitada, un rendimiento increíble y el mayor tiempo de actividad del 99,99%.