OpenAI rende disponibile l'API Realtime con il loro modello di sintesi vocale più avanzato gpt-realtime e nuove capacità per costruire agenti vocali pronti per la produzione. - Il nuovo modello gpt-realtime (gpt-realtime-2025-08-28) mostra miglioramenti nel seguire istruzioni complesse, nell'utilizzare strumenti con precisione e nella produzione di discorsi che suonano più naturali ed espressivi, con un prezzo di $32 per 1M di token audio in ingresso e $64 per 1M di token audio in uscita (20% più economico rispetto al modello precedente). - L'API Realtime ora supporta server MCP remoti, input di immagini e chiamate telefoniche tramite il Session Initiation Protocol (SIP), rendendo gli agenti vocali più capaci grazie all'accesso a strumenti e contesti aggiuntivi. - OpenAI ha rilasciato due nuove voci, Cedar e Marin, disponibili esclusivamente nell'API Realtime, insieme ad aggiornamenti delle loro otto voci esistenti. - L'API Realtime supporta completamente la residenza dei dati nell'UE per le applicazioni basate nell'UE e nel Big Bench Audio eval, che misura le capacità di ragionamento, gpt-realtime ottiene un punteggio di accuratezza del 82,8% rispetto al loro modello precedente di dicembre 2024, che otteneva un punteggio del 65,6%. - OpenAI ha anche rilasciato gpt-audio (gpt-audio-2025-08-28) come il loro primo modello audio generalmente disponibile per l'API REST delle Chat Completions, con un prezzo di $40 per 1M di token audio in ingresso e $80 per 1M di token audio in uscita.
48,12K