一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

OpenAI 再放“大招”：即時語音 API 全面開放，新模型讓 AI 對話如真人 OpenAI 正式開放其即時 API (Realtime API)，同步推出公司迄今最先進的語音對話模型 gpt-realtime，以及一系列新功能，助力開發者打造可用於生產環境的 AI 語音智能體。新發布的 gpt-realtime 模型（版本號 gpt-realtime-2025-08-28）在多個方面都有顯著提升：它能更好地理解並執行複雜的指令，更精確地調用外部工具，而且生成的語音聽起來也更自然、更富於情感。價格方面，音頻輸入為每百萬 token 32 美元，音頻輸出為每百萬 token 64 美元，比之前的模型便宜了 20%。即時 API (Realtime API) 現在支持遠程 MCP 伺服器、圖像輸入，還能通過會話發起協議 (Session Initiation Protocol, SIP) 拨打電話。這意味著 AI 語音智能體能夠調用更多樣的工具、獲取更豐富的上下文信息，從而變得更強大。 OpenAI 還發布了兩款全新的聲音：Cedar 和 Marin。這兩款聲音是即時 API (Realtime API) 的專屬福利。與此同時，現有的八種聲音也得到了更新和優化。對於身處歐盟的開發者和應用來說，即時 API (Realtime API) 現在完全支持歐盟數據駐留 (EU Data Residency) 政策，數據合規更有保障。在衡量模型推理能力的 Big Bench Audio 評測基準上，gpt-realtime 的準確率達到了 82.8%，遠超其 2024 年 12 月發布的上一代模型的 65.6%。除此之外，OpenAI 還發布了另一款名為 gpt-audio 的模型（版本號 gpt-audio-2025-08-28）。這是他們第一款面向聊天補全 REST API (Chat Completions REST API) 正式開放的音頻模型。定價為：音頻輸入每百萬 token 40 美元，音頻輸出每百萬 token 80 美元。

35.69K