OpenAI fa un grande annuncio: API vocali in tempo reale completamente aperte, il nuovo modello rende le conversazioni AI simili a quelle umane. OpenAI ha ufficialmente aperto la sua API in tempo reale (Realtime API), lanciando contemporaneamente il modello di conversazione vocale più avanzato dell'azienda, gpt-realtime, insieme a una serie di nuove funzionalità, per aiutare gli sviluppatori a creare agenti vocali AI utilizzabili in ambienti di produzione. Il nuovo modello gpt-realtime (versione gpt-realtime-2025-08-28) presenta miglioramenti significativi in diversi aspetti: è in grado di comprendere e eseguire meglio istruzioni complesse, di richiamare strumenti esterni con maggiore precisione e la voce generata suona anche più naturale e ricca di emozione. Per quanto riguarda i prezzi, l'input audio costa 32 dollari per milione di token, mentre l'output audio costa 64 dollari per milione di token, il che è il 20% più economico rispetto ai modelli precedenti. L'API in tempo reale (Realtime API) ora supporta server MCP remoti, input di immagini e può effettuare chiamate tramite il protocollo di avvio della sessione (Session Initiation Protocol, SIP). Questo significa che gli agenti vocali AI possono richiamare strumenti più vari e ottenere informazioni contestuali più ricche, diventando così più potenti. OpenAI ha anche lanciato due nuove voci: Cedar e Marin. Queste due voci sono un'esclusiva dell'API in tempo reale (Realtime API). Nel frattempo, anche le otto voci esistenti sono state aggiornate e ottimizzate. Per gli sviluppatori e le applicazioni situati nell'Unione Europea, l'API in tempo reale (Realtime API) ora supporta completamente la politica di residenza dei dati dell'UE (EU Data Residency), garantendo una maggiore conformità dei dati. Nella valutazione Big Bench Audio, che misura le capacità di inferenza del modello, gpt-realtime ha raggiunto un'accuratezza del 82,8%, superando di gran lunga il 65,6% del modello precedente rilasciato a dicembre 2024. Inoltre, OpenAI ha rilasciato un altro modello chiamato gpt-audio (versione gpt-audio-2025-08-28). Questo è il loro primo modello audio ufficialmente aperto per l'API REST di completamento chat (Chat Completions REST API). I prezzi sono: input audio 40 dollari per milione di token, output audio 80 dollari per milione di token.
Tibor Blaho
Tibor Blaho29 ago 2025
OpenAI rende disponibile l'API Realtime con il loro modello di sintesi vocale più avanzato gpt-realtime e nuove capacità per costruire agenti vocali pronti per la produzione. - Il nuovo modello gpt-realtime (gpt-realtime-2025-08-28) mostra miglioramenti nel seguire istruzioni complesse, nell'utilizzare strumenti con precisione e nella produzione di discorsi che suonano più naturali ed espressivi, con un prezzo di $32 per 1M di token audio in ingresso e $64 per 1M di token audio in uscita (20% più economico rispetto al modello precedente). - L'API Realtime ora supporta server MCP remoti, input di immagini e chiamate telefoniche tramite il Session Initiation Protocol (SIP), rendendo gli agenti vocali più capaci grazie all'accesso a strumenti e contesti aggiuntivi. - OpenAI ha rilasciato due nuove voci, Cedar e Marin, disponibili esclusivamente nell'API Realtime, insieme ad aggiornamenti delle loro otto voci esistenti. - L'API Realtime supporta completamente la residenza dei dati nell'UE per le applicazioni basate nell'UE e nel Big Bench Audio eval, che misura le capacità di ragionamento, gpt-realtime ottiene un punteggio di accuratezza del 82,8% rispetto al loro modello precedente di dicembre 2024, che otteneva un punteggio del 65,6%. - OpenAI ha anche rilasciato gpt-audio (gpt-audio-2025-08-28) come il loro primo modello audio generalmente disponibile per l'API REST delle Chat Completions, con un prezzo di $40 per 1M di token audio in ingresso e $80 per 1M di token audio in uscita.
35,69K