OpenAI 正在將 Realtime API 一般可用,並推出其最先進的語音到語音模型 gpt-realtime,以及構建生產就緒語音代理的新功能。 - 新的 gpt-realtime 模型 (gpt-realtime-2025-08-28) 在遵循複雜指令、精確調用工具和生成更自然、更富表現力的語音方面有所改進,定價為每百萬音頻輸入令牌 32 美元,每百萬音頻輸出令牌 64 美元(比之前的模型便宜 20%)。 - Realtime API 現在支持遠程 MCP 伺服器、圖像輸入和通過會話發起協議 (SIP) 進行電話呼叫,使語音代理通過訪問額外的工具和上下文變得更強大。 - OpenAI 發布了兩種新聲音,Cedar 和 Marin,這些聲音在 Realtime API 中獨家提供,並對現有的八種聲音進行了更新。 - Realtime API 完全支持歐盟數據駐留,適用於基於歐盟的應用程序,並且在 Big Bench Audio 評估中,gpt-realtime 的推理能力得分為 82.8% 的準確率,而其 2024 年 12 月的前一個模型得分為 65.6%。 - OpenAI 還發布了 gpt-audio (gpt-audio-2025-08-28),作為其首個一般可用的音頻模型,適用於 Chat Completions REST API,定價為每百萬音頻輸入令牌 40 美元,每百萬音頻輸出令牌 80 美元。
48.12K