OpenAI 正在将 Realtime API 一般可用,并推出其最先进的语音到语音模型 gpt-realtime,以及构建生产就绪语音代理的新功能。 - 新的 gpt-realtime 模型 (gpt-realtime-2025-08-28) 在遵循复杂指令、精确调用工具和生成更自然、更富表现力的语音方面有所改进,定价为每百万音频输入令牌 32 美元,每百万音频输出令牌 64 美元(比之前的模型便宜 20%)。 - Realtime API 现在支持远程 MCP 服务器、图像输入和通过会话发起协议 (SIP) 进行电话呼叫,使语音代理通过访问额外的工具和上下文变得更强大。 - OpenAI 发布了两种新声音,Cedar 和 Marin,这些声音在 Realtime API 中独家提供,并对现有的八种声音进行了更新。 - Realtime API 完全支持欧盟数据驻留,适用于基于欧盟的应用程序,并且在 Big Bench Audio 评估中,gpt-realtime 的推理能力得分为 82.8% 的准确率,而其 2024 年 12 月的前一个模型得分为 65.6%。 - OpenAI 还发布了 gpt-audio (gpt-audio-2025-08-28),作为其首个一般可用的音频模型,适用于 Chat Completions REST API,定价为每百万音频输入令牌 40 美元,每百万音频输出令牌 80 美元。
48.12K