OpenAIは別の「大きな動き」をしました:リアルタイム音声APIが完全にオープンになり、新しいモデルはAIの会話を本物の人間のようにします OpenAI はリアルタイム API (リアルタイム API) を正式に公開し、同社のこれまでで最も先進的な音声会話モデルである gpt-realtime と、開発者が本番環境で使用できる AI 音声エージェントを構築するのに役立つ一連の新機能を同時に開始しました。 新しくリリースされた GPT-RealTime モデル (バージョン番号 gpt-realtime-2025-08-28) は、複雑な命令をよりよく理解して実行できること、外部ツールをより正確に呼び出すことができること、より自然で感情的に聞こえる音声を生成できるなど、いくつかの点で大幅に改善されました。 価格面では、オーディオ入力は100万トークンあたり32ドル、オーディオ出力は100万トークンあたり64ドルで、以前のモデルよりも20%安くなっています。 Realtime API は、リモート MCP サーバー、画像入力、および Session Initiation Protocol (SIP) を介した呼び出しをサポートするようになりました。 これは、AI 音声エージェントが、より多様なツールを呼び出し、より豊富なコンテキスト情報を取得することで、より強力になることを意味します。 OpenAI は、Cedar と Marin という 2 つのまったく新しい声もリリースしました。 これら 2 つの音声は、Realtime API の独自の利点です。 同時に、既存の8つのサウンドが更新され、最適化されました。 EU の開発者とアプリケーション向けに、Realtime API は EU のデータ所在地ポリシーを完全にサポートし、データコンプライアンスを強化します。 モデルの推論能力を測定する Big Bench Audio ベンチマークでは、GPT-RealTime は 82.8% の精度を達成し、2024 年 12 月にリリースされた前世代モデルの 65.6% をはるかに上回りました。 これに加えて、OpenAI は gpt-audio (バージョン番号 gpt-audio-2025-08-28) と呼ばれる別のモデルをリリースしました。 これは、チャット完了REST API用に正式にオープンされた最初のオーディオモデルです。 価格は、オーディオ入力の場合は 100 万トークンあたり 40 ドル、オーディオ出力の場合は 100 万トークンあたり 80 ドルです。
Tibor Blaho
Tibor Blaho2025年8月29日
OpenAI は、最先端の音声読み上げモデル gpt-realtime と、本番環境に対応した音声エージェントを構築するための新機能を備えた Realtime API を一般提供しています - 新しい gpt-realtime モデル (gpt-realtime-2025-08-28) は、複雑な命令に従うこと、ツールを正確に呼び出すこと、より自然で表現力豊かな音声を生成することの改善を示しており、価格は 1M オーディオ入力トークンあたり 32 ドル、1M オーディオ出力トークンあたり 64 ドル (以前のモデルより 20% 安い) です。 - Realtime API は、リモート MCP サーバー、画像入力、およびセッション開始プロトコル (SIP) を介した通話をサポートするようになり、追加のツールやコンテキストへのアクセスを通じて音声エージェントの能力が向上しました。 - OpenAI は、既存の 8 つの音声のアップデートとともに、Realtime API でのみ利用できる Cedar と Marin という 2 つの新しい音声をリリースしました。 - Realtime APIは、EUベースのアプリケーションのEUデータレジデンシーを完全にサポートしており、Big Bench Audioの評価測定推論機能では、gpt-realtimeの精度は82.8%で、2024年12月の以前のモデルの65.6%と比較して、82.8%の精度を獲得しました。 - OpenAI はまた、Chat Completions REST API の最初の一般公開オーディオ モデルとして gpt-audio (gpt-audio-2025-08-28) をリリースし、価格は 1M オーディオ入力トークンあたり 40 ドル、1M オーディオ出力トークンあたり 80 ドルです
35.69K