OpenAI har gjort nok et «stort grep»: sanntids tale-API-en er helt åpen, og den nye modellen gjør AI-samtaler som ekte mennesker OpenAI har offisielt åpnet sin sanntids-API (Realtime API), og lanserer samtidig selskapets mest avanserte talesamtalemodell til dags dato, gpt-sanntid, og en rekke nye funksjoner for å hjelpe utviklere med å bygge AI-stemmeagenter som kan brukes i produksjonsmiljøer. Den nylig utgitte GPT-RealTime-modellen (versjonsnummer gpt-realtime-2025-08-28) har blitt betydelig forbedret på flere måter: den kan bedre forstå og utføre komplekse instruksjoner, ringe eksterne verktøy mer nøyaktig og generere tale som høres mer naturlig og emosjonell ut. Når det gjelder pris, er lydinngangen $32 per million tokens og lydutgangen er $64 per million tokens, som er 20 % billigere enn den forrige modellen. Realtime API støtter nå eksterne MCP-servere, bildeinngang og anrop via SIP (Session Initiation Protocol). Dette betyr at AI-stemmeagenter blir kraftigere ved å kalle mer varierte verktøy og få rikere kontekstuell informasjon. OpenAI har også gitt ut to helt nye stemmer: Cedar og Marin. Disse to stemmene er eksklusive fordeler med Realtime API. Samtidig har de eksisterende åtte lydene blitt oppdatert og optimalisert. For utviklere og programmer i EU støtter Realtime API nå EUs retningslinjer for datalagring fullt ut og gir bedre datasamsvar. På Big Bench Audio-referansen, som måler modellens resonneringsevner, oppnådde GPT-RealTime en nøyaktighetsgrad på 82.8 %, langt over 65.6 % av forrige generasjons modell utgitt i desember 2024. I tillegg til dette har OpenAI gitt ut en annen modell kalt gpt-audio (versjonsnummer gpt-audio-2025-08-28). Dette er deres første lydmodell som offisielt åpnes for Chat Completions REST API. Prisen er: $40 per million tokens for lydinngang og $80 per million tokens for lydutgang.
Tibor Blaho
Tibor Blaho29. aug. 2025
OpenAI gjør Realtime API generelt tilgjengelig med deres mest avanserte tale-til-tale-modell gpt-sanntid og nye funksjoner for å bygge produksjonsklare taleagenter - Den nye gpt-sanntidsmodellen (gpt-realtime-2025-08-28) viser forbedringer i å følge komplekse instruksjoner, ringe verktøy med presisjon og produsere tale som høres mer naturlig og uttrykksfull ut, priset til $32 per 1M lydinngangstokens og $64 per 1M lydutgangstokens (20% billigere enn forrige modell) - Realtime API støtter nå eksterne MCP-servere, bildeinnganger og telefonsamtaler gjennom SIP (Session Initiation Protocol), noe som gjør taleagenter mer kapable gjennom tilgang til flere verktøy og kontekst - OpenAI ga ut to nye stemmer, Cedar og Marin, som er tilgjengelig eksklusivt i Realtime API, sammen med oppdateringer til deres eksisterende åtte stemmer - Realtime API støtter fullt ut EU Data Residency for EU-baserte applikasjoner, og på Big Bench Audio eval-målingsfunksjoner scorer gpt-sanntid 82,8 % nøyaktighet sammenlignet med deres forrige modell fra desember 2024 som scorer 65,6 % - OpenAI ga også ut gpt-audio (gpt-audio-2025-08-28) som deres første generelt tilgjengelige lydmodell for Chat Completions REST API, priset til $40 per 1M lydinngangstokens og $80 per 1M lydutgangstokens
35,68K