OpenAI macht die Realtime API allgemein verfügbar mit ihrem fortschrittlichsten Sprach-zu-Sprache-Modell gpt-realtime und neuen Möglichkeiten zum Erstellen produktionsbereiter Sprachagenten - Das neue gpt-realtime Modell (gpt-realtime-2025-08-28) zeigt Verbesserungen beim Befolgen komplexer Anweisungen, beim präzisen Aufrufen von Werkzeugen und bei der Erzeugung von Sprache, die natürlicher und ausdrucksvoller klingt, zu einem Preis von 32 $ pro 1M Audioeingabetokens und 64 $ pro 1M Audioausgabetokens (20 % günstiger als das vorherige Modell) - Die Realtime API unterstützt jetzt remote MCP-Server, Bildeingaben und Telefonanrufe über das Session Initiation Protocol (SIP), wodurch Sprachagenten durch den Zugang zu zusätzlichen Werkzeugen und Kontext leistungsfähiger werden - OpenAI hat zwei neue Stimmen, Cedar und Marin, veröffentlicht, die exklusiv in der Realtime API verfügbar sind, zusammen mit Updates zu ihren bestehenden acht Stimmen - Die Realtime API unterstützt vollständig die EU-Datenresidenz für EU-basierte Anwendungen und beim Big Bench Audio eval, das die Denkfähigkeiten misst, erzielt gpt-realtime eine Genauigkeit von 82,8 % im Vergleich zu ihrem vorherigen Modell von Dezember 2024, das 65,6 % erreicht - OpenAI hat auch gpt-audio (gpt-audio-2025-08-28) als ihr erstes allgemein verfügbares Audiomodell für die Chat Completions REST API veröffentlicht, zu einem Preis von 40 $ pro 1M Audioeingabetokens und 80 $ pro 1M Audioausgabetokens
48,11K