DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

OpenAI fait à nouveau parler de lui : l'API de voix en temps réel est entièrement ouverte, et le nouveau modèle rend les conversations avec l'IA aussi naturelles que celles avec un humain. OpenAI a officiellement ouvert son API en temps réel (Realtime API) et a lancé simultanément son modèle de conversation vocale le plus avancé à ce jour, gpt-realtime, ainsi qu'une série de nouvelles fonctionnalités pour aider les développeurs à créer des agents intelligents vocaux utilisables en production. Le nouveau modèle gpt-realtime (version gpt-realtime-2025-08-28) présente des améliorations significatives dans plusieurs domaines : il comprend et exécute mieux des instructions complexes, appelle des outils externes avec plus de précision, et la voix générée sonne plus naturelle et plus émotionnelle. En termes de prix, l'entrée audio est de 32 dollars par million de tokens, et la sortie audio est de 64 dollars par million de tokens, soit 20 % moins cher que les modèles précédents. L'API en temps réel (Realtime API) prend désormais en charge les serveurs MCP distants, les entrées d'images, et permet de passer des appels via le protocole d'initiation de session (Session Initiation Protocol, SIP). Cela signifie que les agents intelligents vocaux de l'IA peuvent utiliser une plus grande variété d'outils et obtenir des informations contextuelles plus riches, les rendant ainsi plus puissants. OpenAI a également lancé deux nouvelles voix : Cedar et Marin. Ces deux voix sont un avantage exclusif de l'API en temps réel (Realtime API). Parallèlement, les huit voix existantes ont également été mises à jour et optimisées. Pour les développeurs et les applications situés dans l'Union européenne, l'API en temps réel (Realtime API) prend désormais entièrement en charge la politique de résidence des données de l'UE (EU Data Residency), garantissant une meilleure conformité des données. Dans l'évaluation Big Bench Audio, qui mesure la capacité de raisonnement des modèles, gpt-realtime a atteint un taux de précision de 82,8 %, bien supérieur aux 65,6 % de son prédécesseur lancé en décembre 2024. En outre, OpenAI a également lancé un autre modèle appelé gpt-audio (version gpt-audio-2025-08-28). C'est leur premier modèle audio officiellement ouvert pour l'API REST de complétion de chat (Chat Completions REST API). Les prix sont les suivants : entrée audio à 40 dollars par million de tokens, sortie audio à 80 dollars par million de tokens.

35,69K

Meilleurs

Classement

Favoris