OpenAI bringt ein "großes Update": Echtzeit-Sprach-API wird vollständig geöffnet, neues Modell lässt KI-Gespräche wie echte Menschen erscheinen OpenAI hat offiziell seine Echtzeit-API (Realtime API) geöffnet und gleichzeitig das bisher fortschrittlichste Sprachdialogmodell gpt-realtime sowie eine Reihe neuer Funktionen veröffentlicht, die Entwicklern helfen, KI-Sprachagenten für Produktionsumgebungen zu erstellen. Das neu veröffentlichte gpt-realtime-Modell (Versionsnummer gpt-realtime-2025-08-28) hat in mehreren Bereichen signifikante Verbesserungen erfahren: Es kann komplexe Anweisungen besser verstehen und ausführen, externe Werkzeuge präziser ansprechen und die erzeugte Sprache klingt natürlicher und emotionaler. Preislich liegt der Audioeingang bei 32 US-Dollar pro Million Tokens, der Audioausgang bei 64 US-Dollar pro Million Tokens, was 20 % günstiger ist als bei den vorherigen Modellen. Die Echtzeit-API (Realtime API) unterstützt jetzt Remote-MCP-Server, Bildeingaben und kann Anrufe über das Session Initiation Protocol (SIP) tätigen. Das bedeutet, dass KI-Sprachagenten auf vielfältigere Werkzeuge zugreifen und reichhaltigere Kontextinformationen erhalten können, wodurch sie leistungsfähiger werden. OpenAI hat auch zwei brandneue Stimmen veröffentlicht: Cedar und Marin. Diese beiden Stimmen sind exklusive Vorteile der Echtzeit-API (Realtime API). Gleichzeitig wurden die bestehenden acht Stimmen aktualisiert und optimiert. Für Entwickler und Anwendungen in der EU unterstützt die Echtzeit-API (Realtime API) jetzt vollständig die EU-Datenresidenzpolitik, was eine bessere Dateneinhaltung gewährleistet. Bei der Bewertung der Modellinferenzfähigkeiten im Big Bench Audio Benchmark erreichte gpt-realtime eine Genauigkeit von 82,8 %, weit über den 65,6 % des vorherigen Modells, das im Dezember 2024 veröffentlicht wurde. Darüber hinaus hat OpenAI ein weiteres Modell namens gpt-audio (Versionsnummer gpt-audio-2025-08-28) veröffentlicht. Dies ist ihr erstes Audio-Modell, das offiziell für die Chat Completions REST API geöffnet wurde. Die Preisgestaltung beträgt: Audioeingang 40 US-Dollar pro Million Tokens, Audioausgang 80 US-Dollar pro Million Tokens.
Tibor Blaho
Tibor Blaho29. Aug. 2025
OpenAI macht die Realtime API allgemein verfügbar mit ihrem fortschrittlichsten Sprach-zu-Sprache-Modell gpt-realtime und neuen Möglichkeiten zum Erstellen produktionsbereiter Sprachagenten - Das neue gpt-realtime Modell (gpt-realtime-2025-08-28) zeigt Verbesserungen beim Befolgen komplexer Anweisungen, beim präzisen Aufrufen von Werkzeugen und bei der Erzeugung von Sprache, die natürlicher und ausdrucksvoller klingt, zu einem Preis von 32 $ pro 1M Audioeingabetokens und 64 $ pro 1M Audioausgabetokens (20 % günstiger als das vorherige Modell) - Die Realtime API unterstützt jetzt remote MCP-Server, Bildeingaben und Telefonanrufe über das Session Initiation Protocol (SIP), wodurch Sprachagenten durch den Zugang zu zusätzlichen Werkzeugen und Kontext leistungsfähiger werden - OpenAI hat zwei neue Stimmen, Cedar und Marin, veröffentlicht, die exklusiv in der Realtime API verfügbar sind, zusammen mit Updates zu ihren bestehenden acht Stimmen - Die Realtime API unterstützt vollständig die EU-Datenresidenz für EU-basierte Anwendungen und beim Big Bench Audio eval, das die Denkfähigkeiten misst, erzielt gpt-realtime eine Genauigkeit von 82,8 % im Vergleich zu ihrem vorherigen Modell von Dezember 2024, das 65,6 % erreicht - OpenAI hat auch gpt-audio (gpt-audio-2025-08-28) als ihr erstes allgemein verfügbares Audiomodell für die Chat Completions REST API veröffentlicht, zu einem Preis von 40 $ pro 1M Audioeingabetokens und 80 $ pro 1M Audioausgabetokens
35,69K