OpenAI は、最先端の音声読み上げモデル gpt-realtime と、本番環境に対応した音声エージェントを構築するための新機能を備えた Realtime API を一般提供しています - 新しい gpt-realtime モデル (gpt-realtime-2025-08-28) は、複雑な命令に従うこと、ツールを正確に呼び出すこと、より自然で表現力豊かな音声を生成することの改善を示しており、価格は 1M オーディオ入力トークンあたり 32 ドル、1M オーディオ出力トークンあたり 64 ドル (以前のモデルより 20% 安い) です。 - Realtime API は、リモート MCP サーバー、画像入力、およびセッション開始プロトコル (SIP) を介した通話をサポートするようになり、追加のツールやコンテキストへのアクセスを通じて音声エージェントの能力が向上しました。 - OpenAI は、既存の 8 つの音声のアップデートとともに、Realtime API でのみ利用できる Cedar と Marin という 2 つの新しい音声をリリースしました。 - Realtime APIは、EUベースのアプリケーションのEUデータレジデンシーを完全にサポートしており、Big Bench Audioの評価測定推論機能では、gpt-realtimeの精度は82.8%で、2024年12月の以前のモデルの65.6%と比較して、82.8%の精度を獲得しました。 - OpenAI はまた、Chat Completions REST API の最初の一般公開オーディオ モデルとして gpt-audio (gpt-audio-2025-08-28) をリリースし、価格は 1M オーディオ入力トークンあたり 40 ドル、1M オーディオ出力トークンあたり 80 ドルです
48.12K