💡 领先的推理提供商 — @basetenco, @DeepInfra, @FireworksAI_HQ 和 @togethercompute — 正在通过优化的推理堆栈,利用 NVIDIA Blackwell 平台在各行业中将每个 token 的成本降低多达 10 倍。 通过将 #opensource 前沿智能与 NVIDIA Blackwell 的硬件–软件协同设计以及他们自己优化的推理堆栈相结合,这些提供商为包括 @SullyAI、Latitude、Sentient 和 Decagon 在内的企业提供了显著的 token 成本降低。 🔗
⚡ 由NVIDIA Blackwell提供支持,@togethercompute和@DecagonAI正在加速AI客户服务——在600毫秒内提供类人语音交互,并将成本降低6倍。 借助Together优化的推理堆栈在NVIDIA Blackwell上运行,Decagon在规模上提供实时礼宾体验——每秒处理数百个查询,精度在毫秒级。
🩺 @SullyAI 正在通过 Baseten 的 Model API 改变医疗效率,使用 NVIDIA Blackwell GPU 运行前沿开放模型,如 gpt-oss-120b。 凭借使用 NVIDIA Blackwell、NVFP4、TensorRT-LLM 和 NVIDIA Dynamo 构建的优化推理堆栈,Baseten 实现了 10 倍的成本降低和 65% 更快的响应速度,适用于临床笔记生成等关键工作流程。
@basetenco @DeepInfra @FireworksAI_HQ @togethercompute @DecagonAI @sullyai ⚙️ Latitude 在 DeepInfra 的推理平台上运行大规模的专家混合模型,该平台由 NVIDIA Blackwell GPU、NVFP4 和 TensorRT LLM 提供支持。 DeepInfra 将每百万个令牌的成本从 $0.20 降低到 $0.05 — 效率提升了 4 倍。
为了管理规模和复杂性,@SentientAGI 使用运行在 NVIDIA Blackwell 上的 Fireworks AI 推理平台。通过 @FireworksAI_HQ 的 Blackwell 优化推理堆栈,Sentient 实现了与之前基于 Hopper 的部署相比,成本效率提高了 25-50%。 换句话说,该公司可以在每个 GPU 上以相同的成本服务 25-50% 更多的并发用户。该平台的可扩展性支持了在 24 小时内推出 180 万名等待用户,并在一周内处理了 560 万个查询,同时保持了一致的低延迟。
116