OpenAI 再放“大招”:实时语音 API 全面开放,新模型让 AI 对话如真人 OpenAI 正式开放其实时 API (Realtime API),同步推出公司迄今最先进的语音对话模型 gpt-realtime,以及一系列新功能,助力开发者打造可用于生产环境的 AI 语音智能体。 新发布的 gpt-realtime 模型(版本号 gpt-realtime-2025-08-28)在多个方面都有显著提升:它能更好地理解并执行复杂的指令,更精准地调用外部工具,而且生成的语音听起来也更自然、更富于情感。价格方面,音频输入为每百万 token 32 美元,音频输出为每百万 token 64 美元,比之前的模型便宜了 20%。 实时 API (Realtime API) 现在支持远程 MCP 服务器、图像输入,还能通过会话发起协议 (Session Initiation Protocol, SIP) 拨打电话。这意味着 AI 语音智能体能够调用更多样的工具、获取更丰富的上下文信息,从而变得更加强大。 OpenAI 还发布了两款全新的声音:Cedar 和 Marin。这两款声音是实时 API (Realtime API) 的专属福利。与此同时,现有的八种声音也得到了更新和优化。 对于身处欧盟的开发者和应用来说,实时 API (Realtime API) 现在完全支持欧盟数据驻留 (EU Data Residency) 政策,数据合规更有保障。在衡量模型推理能力的 Big Bench Audio 评测基准上,gpt-realtime 的准确率达到了 82.8%,远超其 2024 年 12 月发布的上一代模型的 65.6%。 除此之外,OpenAI 还发布了另一款名为 gpt-audio 的模型(版本号 gpt-audio-2025-08-28)。这是他们第一款面向聊天补全 REST API (Chat Completions REST API) 正式开放的音频模型。定价为:音频输入每百万 token 40 美元,音频输出每百万 token 80 美元。
Tibor Blaho
Tibor Blaho2025年8月29日
OpenAI 正在将 Realtime API 一般可用,并推出其最先进的语音到语音模型 gpt-realtime,以及构建生产就绪语音代理的新功能。 - 新的 gpt-realtime 模型 (gpt-realtime-2025-08-28) 在遵循复杂指令、精确调用工具和生成更自然、更富表现力的语音方面有所改进,定价为每百万音频输入令牌 32 美元,每百万音频输出令牌 64 美元(比之前的模型便宜 20%)。 - Realtime API 现在支持远程 MCP 服务器、图像输入和通过会话发起协议 (SIP) 进行电话呼叫,使语音代理通过访问额外的工具和上下文变得更强大。 - OpenAI 发布了两种新声音,Cedar 和 Marin,这些声音在 Realtime API 中独家提供,并对现有的八种声音进行了更新。 - Realtime API 完全支持欧盟数据驻留,适用于基于欧盟的应用程序,并且在 Big Bench Audio 评估中,gpt-realtime 的推理能力得分为 82.8% 的准确率,而其 2024 年 12 月的前一个模型得分为 65.6%。 - OpenAI 还发布了 gpt-audio (gpt-audio-2025-08-28),作为其首个一般可用的音频模型,适用于 Chat Completions REST API,定价为每百万音频输入令牌 40 美元,每百万音频输出令牌 80 美元。
35.68K