DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

OpenAI fa un grande annuncio: API vocali in tempo reale completamente aperte, il nuovo modello rende le conversazioni AI simili a quelle umane. OpenAI ha ufficialmente aperto la sua API in tempo reale (Realtime API), lanciando contemporaneamente il modello di conversazione vocale più avanzato dell'azienda, gpt-realtime, insieme a una serie di nuove funzionalità, per aiutare gli sviluppatori a creare agenti vocali AI utilizzabili in ambienti di produzione. Il nuovo modello gpt-realtime (versione gpt-realtime-2025-08-28) presenta miglioramenti significativi in diversi aspetti: è in grado di comprendere e eseguire meglio istruzioni complesse, di richiamare strumenti esterni con maggiore precisione e la voce generata suona anche più naturale e ricca di emozione. Per quanto riguarda i prezzi, l'input audio costa 32 dollari per milione di token, mentre l'output audio costa 64 dollari per milione di token, il che è il 20% più economico rispetto ai modelli precedenti. L'API in tempo reale (Realtime API) ora supporta server MCP remoti, input di immagini e può effettuare chiamate tramite il protocollo di avvio della sessione (Session Initiation Protocol, SIP). Questo significa che gli agenti vocali AI possono richiamare strumenti più vari e ottenere informazioni contestuali più ricche, diventando così più potenti. OpenAI ha anche lanciato due nuove voci: Cedar e Marin. Queste due voci sono un'esclusiva dell'API in tempo reale (Realtime API). Nel frattempo, anche le otto voci esistenti sono state aggiornate e ottimizzate. Per gli sviluppatori e le applicazioni situati nell'Unione Europea, l'API in tempo reale (Realtime API) ora supporta completamente la politica di residenza dei dati dell'UE (EU Data Residency), garantendo una maggiore conformità dei dati. Nella valutazione Big Bench Audio, che misura le capacità di inferenza del modello, gpt-realtime ha raggiunto un'accuratezza del 82,8%, superando di gran lunga il 65,6% del modello precedente rilasciato a dicembre 2024. Inoltre, OpenAI ha rilasciato un altro modello chiamato gpt-audio (versione gpt-audio-2025-08-28). Questo è il loro primo modello audio ufficialmente aperto per l'API REST di completamento chat (Chat Completions REST API). I prezzi sono: input audio 40 dollari per milione di token, output audio 80 dollari per milione di token.

35,69K

Principali

Ranking

Preferiti