大多數人會跳過的部分:NVIDIA 剛剛讓每個語音 AI API 成為商品。 OpenAI 對 Realtime API 收取每分鐘 $0.06 的輸入費用和每分鐘 $0.24 的輸出費用。Gemini Live 每秒收取 25 個代幣的音頻費用。每個建立語音代理的初創公司都在每分鐘的 API 費用上流失資金,這根本上是一個管道問題:ASR → LLM → TTS,三個模型在每個接縫處都有延遲。 PersonaPlex 用一個 7B 模型取代了整個管道。運行在單個 A100 上。開放權重,MIT 許可證,允許商業使用。響應延遲:輪流交談 0.170 秒,打斷 0.240 秒。 在對話自然度上,它的得分高於 Gemini(2.95 對 2.80 MOS),並且在處理打斷方面比他們基準測試的每個商業系統都更好。 這告訴你 NVIDIA 的策略。他們不需要對模型收費。他們需要你購買 GPU。每個自我託管 PersonaPlex 的公司,而不是按分鐘支付 OpenAI 的費用,都是另一個 A100/H100 的銷售。每個放棄 API 依賴的語音代理初創公司都是另一個企業 GPU 合約。 NVIDIA 開源了釣竿,因為他們賣的是湖泊。基於 Kyutai 的 Moshi 架構構建,經過不到 5,000 小時的數據微調。 語音 AI 的利潤正在從應用層轉移到硬體層。而 NVIDIA 是唯一一家無論哪個模型獲勝都能獲利的公司。 第一個月 330,000 次下載。這是偽裝成慷慨的基礎設施捕獲。