OpenAI rend l'API Realtime généralement disponible avec leur modèle de synthèse vocale le plus avancé, gpt-realtime, et de nouvelles capacités pour construire des agents vocaux prêts pour la production. - Le nouveau modèle gpt-realtime (gpt-realtime-2025-08-28) montre des améliorations dans le suivi d'instructions complexes, l'appel d'outils avec précision, et la production de discours qui sonne plus naturel et expressif, au prix de 32 $ par 1M de tokens d'entrée audio et 64 $ par 1M de tokens de sortie audio (20 % moins cher que le modèle précédent). - L'API Realtime prend désormais en charge les serveurs MCP distants, les entrées d'image et les appels téléphoniques via le protocole SIP (Session Initiation Protocol), rendant les agents vocaux plus capables grâce à l'accès à des outils et contextes supplémentaires. - OpenAI a publié deux nouvelles voix, Cedar et Marin, qui sont disponibles exclusivement dans l'API Realtime, en plus des mises à jour de leurs huit voix existantes. - L'API Realtime prend pleinement en charge la résidence des données de l'UE pour les applications basées dans l'UE et sur l'évaluation Big Bench Audio mesurant les capacités de raisonnement, gpt-realtime obtient un score de 82,8 % de précision par rapport à leur modèle précédent de décembre 2024 qui obtient un score de 65,6 %. - OpenAI a également publié gpt-audio (gpt-audio-2025-08-28) comme leur premier modèle audio généralement disponible pour l'API REST des complétions de chat, au prix de 40 $ par 1M de tokens d'entrée audio et 80 $ par 1M de tokens de sortie audio.
48,12K