OpenAI doet weer een "grote zet": realtime spraak API volledig open, nieuw model maakt AI gesprekken als een echte persoon OpenAI heeft officieel zijn realtime API (Realtime API) geopend, samen met de lancering van het meest geavanceerde spraakgespreksmodel tot nu toe, gpt-realtime, en een reeks nieuwe functies die ontwikkelaars helpen bij het creëren van AI spraakintelligentie voor productieomgevingen. Het nieuw gelanceerde gpt-realtime model (versienummer gpt-realtime-2025-08-28) heeft aanzienlijke verbeteringen op verschillende gebieden: het kan beter complexe instructies begrijpen en uitvoeren, externe tools nauwkeuriger aanroepen, en de gegenereerde spraak klinkt natuurlijker en emotioneel rijker. Wat betreft de prijs, audio-invoer kost 32 dollar per miljoen tokens, en audio-uitvoer kost 64 dollar per miljoen tokens, wat 20% goedkoper is dan de vorige modellen. De realtime API (Realtime API) ondersteunt nu ook externe MCP-servers, beeldinvoer, en kan telefoongesprekken initiëren via het Session Initiation Protocol (SIP). Dit betekent dat AI spraakintelligentie meer diverse tools kan aanroepen en rijkere contextinformatie kan verkrijgen, waardoor het krachtiger wordt. OpenAI heeft ook twee nieuwe stemmen gelanceerd: Cedar en Marin. Deze stemmen zijn exclusieve voordelen van de realtime API (Realtime API). Tegelijkertijd zijn de bestaande acht stemmen ook bijgewerkt en geoptimaliseerd. Voor ontwikkelaars en toepassingen in de EU ondersteunt de realtime API (Realtime API) nu volledig het EU Data Residency-beleid, waardoor de gegevensconformiteit beter gewaarborgd is. Bij de Big Bench Audio-evaluatie, die de modelinference-capaciteit meet, heeft gpt-realtime een nauwkeurigheid van 82,8% behaald, wat ver boven de 65,6% van de vorige generatie modellen die in december 2024 werd uitgebracht ligt. Daarnaast heeft OpenAI ook een ander model gelanceerd genaamd gpt-audio (versienummer gpt-audio-2025-08-28). Dit is hun eerste audio model dat officieel open is voor de Chat Completions REST API. De prijs is: audio-invoer 40 dollar per miljoen tokens, audio-uitvoer 80 dollar per miljoen tokens.
Tibor Blaho
Tibor Blaho29 aug 2025
OpenAI maakt de Realtime API algemeen beschikbaar met hun meest geavanceerde spraak-naar-spraakmodel gpt-realtime en nieuwe mogelijkheden voor het bouwen van productieklare spraakagenten - Het nieuwe gpt-realtime model (gpt-realtime-2025-08-28) toont verbeteringen in het volgen van complexe instructies, het nauwkeurig aanroepen van tools en het produceren van spraak die natuurlijker en expressiever klinkt, geprijsd op $32 per 1M audio-invoertokens en $64 per 1M audio-uitvoertokens (20% goedkoper dan het vorige model) - De Realtime API ondersteunt nu externe MCP-servers, afbeeldinginvoer en telefoneren via het Session Initiation Protocol (SIP), waardoor spraakagenten krachtiger worden door toegang tot extra tools en context - OpenAI heeft twee nieuwe stemmen uitgebracht, Cedar en Marin, die exclusief beschikbaar zijn in de Realtime API, naast updates voor hun bestaande acht stemmen - De Realtime API ondersteunt volledig EU Data Residency voor EU-gebaseerde applicaties en op de Big Bench Audio-evaluatie die redeneervaardigheden meet, scoort gpt-realtime 82,8% nauwkeurigheid vergeleken met hun vorige model van december 2024 dat 65,6% scoort - OpenAI heeft ook gpt-audio (gpt-audio-2025-08-28) uitgebracht als hun eerste algemeen beschikbare audiomodel voor de Chat Completions REST API, geprijsd op $40 per 1M audio-invoertokens en $80 per 1M audio-uitvoertokens
35,68K