Denne uken låste Basetens modellytelsesteam opp den raskeste TPS og TTFT for gpt-oss 120b på @nvidia maskinvare. Da gpt-oss ble lansert, spurtet vi for å tilby den til 450 TPS ... nå har vi overskredet 650 TPS og 0.11 sek TTFT ... Og vi vil fortsette å jobbe for å fortsette å heve standarden. Vi er stolte av å tilby den beste E2E-ventetiden som er tilgjengelig med nesten ubegrenset skala, utrolig ytelse og den høyeste oppetiden 99,99 %.