Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI fait à nouveau parler de lui : l'API de voix en temps réel est entièrement ouverte, et le nouveau modèle rend les conversations avec l'IA aussi naturelles que celles avec un humain.
OpenAI a officiellement ouvert son API en temps réel (Realtime API) et a lancé simultanément son modèle de conversation vocale le plus avancé à ce jour, gpt-realtime, ainsi qu'une série de nouvelles fonctionnalités pour aider les développeurs à créer des agents intelligents vocaux utilisables en production.
Le nouveau modèle gpt-realtime (version gpt-realtime-2025-08-28) présente des améliorations significatives dans plusieurs domaines : il comprend et exécute mieux des instructions complexes, appelle des outils externes avec plus de précision, et la voix générée sonne plus naturelle et plus émotionnelle. En termes de prix, l'entrée audio est de 32 dollars par million de tokens, et la sortie audio est de 64 dollars par million de tokens, soit 20 % moins cher que les modèles précédents.
L'API en temps réel (Realtime API) prend désormais en charge les serveurs MCP distants, les entrées d'images, et permet de passer des appels via le protocole d'initiation de session (Session Initiation Protocol, SIP). Cela signifie que les agents intelligents vocaux de l'IA peuvent utiliser une plus grande variété d'outils et obtenir des informations contextuelles plus riches, les rendant ainsi plus puissants.
OpenAI a également lancé deux nouvelles voix : Cedar et Marin. Ces deux voix sont un avantage exclusif de l'API en temps réel (Realtime API). Parallèlement, les huit voix existantes ont également été mises à jour et optimisées.
Pour les développeurs et les applications situés dans l'Union européenne, l'API en temps réel (Realtime API) prend désormais entièrement en charge la politique de résidence des données de l'UE (EU Data Residency), garantissant une meilleure conformité des données. Dans l'évaluation Big Bench Audio, qui mesure la capacité de raisonnement des modèles, gpt-realtime a atteint un taux de précision de 82,8 %, bien supérieur aux 65,6 % de son prédécesseur lancé en décembre 2024.
En outre, OpenAI a également lancé un autre modèle appelé gpt-audio (version gpt-audio-2025-08-28). C'est leur premier modèle audio officiellement ouvert pour l'API REST de complétion de chat (Chat Completions REST API). Les prix sont les suivants : entrée audio à 40 dollars par million de tokens, sortie audio à 80 dollars par million de tokens.

29 août 2025
OpenAI rend l'API Realtime généralement disponible avec leur modèle de synthèse vocale le plus avancé, gpt-realtime, et de nouvelles capacités pour construire des agents vocaux prêts pour la production.
- Le nouveau modèle gpt-realtime (gpt-realtime-2025-08-28) montre des améliorations dans le suivi d'instructions complexes, l'appel d'outils avec précision, et la production de discours qui sonne plus naturel et expressif, au prix de 32 $ par 1M de tokens d'entrée audio et 64 $ par 1M de tokens de sortie audio (20 % moins cher que le modèle précédent).
- L'API Realtime prend désormais en charge les serveurs MCP distants, les entrées d'image et les appels téléphoniques via le protocole SIP (Session Initiation Protocol), rendant les agents vocaux plus capables grâce à l'accès à des outils et contextes supplémentaires.
- OpenAI a publié deux nouvelles voix, Cedar et Marin, qui sont disponibles exclusivement dans l'API Realtime, en plus des mises à jour de leurs huit voix existantes.
- L'API Realtime prend pleinement en charge la résidence des données de l'UE pour les applications basées dans l'UE et sur l'évaluation Big Bench Audio mesurant les capacités de raisonnement, gpt-realtime obtient un score de 82,8 % de précision par rapport à leur modèle précédent de décembre 2024 qui obtient un score de 65,6 %.
- OpenAI a également publié gpt-audio (gpt-audio-2025-08-28) comme leur premier modèle audio généralement disponible pour l'API REST des complétions de chat, au prix de 40 $ par 1M de tokens d'entrée audio et 80 $ par 1M de tokens de sortie audio.

35,69K
Meilleurs
Classement
Favoris