OpenAI 再放“大招”:即時語音 API 全面開放,新模型讓 AI 對話如真人 OpenAI 正式開放其即時 API (Realtime API),同步推出公司迄今最先進的語音對話模型 gpt-realtime,以及一系列新功能,助力開發者打造可用於生產環境的 AI 語音智能體。 新發布的 gpt-realtime 模型(版本號 gpt-realtime-2025-08-28)在多個方面都有顯著提升:它能更好地理解並執行複雜的指令,更精確地調用外部工具,而且生成的語音聽起來也更自然、更富於情感。價格方面,音頻輸入為每百萬 token 32 美元,音頻輸出為每百萬 token 64 美元,比之前的模型便宜了 20%。 即時 API (Realtime API) 現在支持遠程 MCP 伺服器、圖像輸入,還能通過會話發起協議 (Session Initiation Protocol, SIP) 拨打電話。這意味著 AI 語音智能體能夠調用更多樣的工具、獲取更豐富的上下文信息,從而變得更強大。 OpenAI 還發布了兩款全新的聲音:Cedar 和 Marin。這兩款聲音是即時 API (Realtime API) 的專屬福利。與此同時,現有的八種聲音也得到了更新和優化。 對於身處歐盟的開發者和應用來說,即時 API (Realtime API) 現在完全支持歐盟數據駐留 (EU Data Residency) 政策,數據合規更有保障。在衡量模型推理能力的 Big Bench Audio 評測基準上,gpt-realtime 的準確率達到了 82.8%,遠超其 2024 年 12 月發布的上一代模型的 65.6%。 除此之外,OpenAI 還發布了另一款名為 gpt-audio 的模型(版本號 gpt-audio-2025-08-28)。這是他們第一款面向聊天補全 REST API (Chat Completions REST API) 正式開放的音頻模型。定價為:音頻輸入每百萬 token 40 美元,音頻輸出每百萬 token 80 美元。
Tibor Blaho
Tibor Blaho2025年8月29日
OpenAI 正在將 Realtime API 一般可用,並推出其最先進的語音到語音模型 gpt-realtime,以及構建生產就緒語音代理的新功能。 - 新的 gpt-realtime 模型 (gpt-realtime-2025-08-28) 在遵循複雜指令、精確調用工具和生成更自然、更富表現力的語音方面有所改進,定價為每百萬音頻輸入令牌 32 美元,每百萬音頻輸出令牌 64 美元(比之前的模型便宜 20%)。 - Realtime API 現在支持遠程 MCP 伺服器、圖像輸入和通過會話發起協議 (SIP) 進行電話呼叫,使語音代理通過訪問額外的工具和上下文變得更強大。 - OpenAI 發布了兩種新聲音,Cedar 和 Marin,這些聲音在 Realtime API 中獨家提供,並對現有的八種聲音進行了更新。 - Realtime API 完全支持歐盟數據駐留,適用於基於歐盟的應用程序,並且在 Big Bench Audio 評估中,gpt-realtime 的推理能力得分為 82.8% 的準確率,而其 2024 年 12 月的前一個模型得分為 65.6%。 - OpenAI 還發布了 gpt-audio (gpt-audio-2025-08-28),作為其首個一般可用的音頻模型,適用於 Chat Completions REST API,定價為每百萬音頻輸入令牌 40 美元,每百萬音頻輸出令牌 80 美元。
35.69K