人们真的不理解开源已经成为什么样的竞争战略武器以及它是如何运作的。阿尔弗雷德·马歇尔会感到自豪。重读《大教堂与集市》总是好的。
Aakash Gupta
Aakash Gupta2月16日 02:24
大多数人会跳过的部分:NVIDIA刚刚将每个语音AI API变成了商品。 OpenAI对实时API的输入收费为每分钟$0.06,输出收费为每分钟$0.24。Gemini Live每秒收费25个音频令牌。每个构建语音代理的初创公司都在每分钟的API费用上血本无归,根本上这是一个管道问题:ASR → LLM → TTS,三个模型在每个接缝处都有延迟。 PersonaPlex用一个7B模型替代了整个管道。运行在单个A100上。开放权重,MIT许可证,允许商业使用。响应延迟:轮流对话为0.170秒,打断为0.240秒。 在对话自然性评分上,它的得分高于Gemini(2.95对2.80 MOS),并且在处理打断方面优于他们基准测试的每个商业系统。 这告诉你NVIDIA的游戏规则。他们不需要为模型收费。他们需要你购买GPU。每个自托管PersonaPlex而不是按分钟支付OpenAI费用的公司都是另一个A100/H100的销售。每个放弃API依赖的语音代理初创公司都是另一个企业GPU合同。 NVIDIA开源了钓鱼竿,因为他们出售的是湖泊。基于Kyutai的Moshi架构构建,经过不到5000小时的数据微调。 语音AI的利润正在从应用层迁移到硬件层。而NVIDIA是唯一一家无论哪个模型获胜都能获利的公司。 第一个月下载量达到330,000。这是伪装成慷慨的基础设施捕获。
从长远来看,边际价格趋向于边际成本。在软件领域,这个成本是 $0。
35