OpenAI har gjort ett annat "stort steg": röst-API:et i realtid är helt öppet, och den nya modellen gör AI-konversationer som riktiga människor OpenAI har officiellt öppnat sitt realtids-API (Realtime API) och lanserar samtidigt företagets mest avancerade röstkonversationsmodell hittills, gpt-realtime, och en rad nya funktioner för att hjälpa utvecklare att bygga AI-röstagenter som kan användas i produktionsmiljöer. Den nyligen släppta GPT-RealTime-modellen (versionsnummer gpt-realtime-2025-08-28) har förbättrats avsevärt på flera sätt: den kan bättre förstå och utföra komplexa instruktioner, anropa externa verktyg mer exakt och generera tal som låter mer naturligt och känslomässigt. När det gäller pris är ljudingången $32 per miljon tokens och ljudutgången är $64 per miljon tokens, vilket är 20% billigare än den tidigare modellen. Realtime API har nu stöd för fjärranslutna MCP-servrar, bildindata och anrop via SIP (Session Initiation Protocol). Detta innebär att AI-röstagenter blir mer kraftfulla genom att anropa mer olika verktyg och få rikare kontextuell information. OpenAI har också släppt två helt nya röster: Cedar och Marin. Dessa två röster är exklusiva fördelar med realtids-API:et. Samtidigt har de befintliga åtta ljuden uppdaterats och optimerats. För utvecklare och program i EU har realtids-API:et nu fullt stöd för EU:s policyer för datahemvist och ger bättre dataefterlevnad. I benchmarkprogrammet Big Bench Audio, som mäter modellens förmåga att resonera, uppnådde GPT-RealTime en noggrannhet på 82,8 %, vilket vida överträffade de 65,6 % som den tidigare generationens modell släppte i december 2024. Utöver detta har OpenAI släppt ytterligare en modell som heter gpt-audio (versionsnummer gpt-audio-2025-08-28). Det här är deras första ljudmodell som officiellt öppnas för REST API för chattkompletteringar. Prissättningen är: 40 dollar per miljon tokens för ljudingång och 80 dollar per miljon tokens för ljudutgång.