一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

OpenAI 再放“大招”：实时语音 API 全面开放，新模型让 AI 对话如真人 OpenAI 正式开放其实时 API (Realtime API)，同步推出公司迄今最先进的语音对话模型 gpt-realtime，以及一系列新功能，助力开发者打造可用于生产环境的 AI 语音智能体。新发布的 gpt-realtime 模型（版本号 gpt-realtime-2025-08-28）在多个方面都有显著提升：它能更好地理解并执行复杂的指令，更精准地调用外部工具，而且生成的语音听起来也更自然、更富于情感。价格方面，音频输入为每百万 token 32 美元，音频输出为每百万 token 64 美元，比之前的模型便宜了 20%。实时 API (Realtime API) 现在支持远程 MCP 服务器、图像输入，还能通过会话发起协议 (Session Initiation Protocol, SIP) 拨打电话。这意味着 AI 语音智能体能够调用更多样的工具、获取更丰富的上下文信息，从而变得更加强大。 OpenAI 还发布了两款全新的声音：Cedar 和 Marin。这两款声音是实时 API (Realtime API) 的专属福利。与此同时，现有的八种声音也得到了更新和优化。对于身处欧盟的开发者和应用来说，实时 API (Realtime API) 现在完全支持欧盟数据驻留 (EU Data Residency) 政策，数据合规更有保障。在衡量模型推理能力的 Big Bench Audio 评测基准上，gpt-realtime 的准确率达到了 82.8%，远超其 2024 年 12 月发布的上一代模型的 65.6%。除此之外，OpenAI 还发布了另一款名为 gpt-audio 的模型（版本号 gpt-audio-2025-08-28）。这是他们第一款面向聊天补全 REST API (Chat Completions REST API) 正式开放的音频模型。定价为：音频输入每百万 token 40 美元，音频输出每百万 token 80 美元。

35.68K