اتخذت OpenAI "خطوة كبيرة" أخرى: واجهة برمجة التطبيقات الصوتية في الوقت الفعلي مفتوحة بالكامل ، والنموذج الجديد يجعل محادثات الذكاء الاصطناعي مثل الأشخاص الحقيقيين افتتحت OpenAI رسميا واجهة برمجة التطبيقات في الوقت الفعلي (Realtime API) ، حيث أطلقت في نفس الوقت نموذج المحادثة الصوتية الأكثر تقدما للشركة حتى الآن ، gpt-realtime ، وسلسلة من الميزات الجديدة لمساعدة المطورين على بناء وكلاء صوتيين الذكاء الاصطناعي يمكن استخدامها في بيئات الإنتاج. تم تحسين نموذج GPT-RealTime الذي تم إصداره حديثا (رقم الإصدار gpt-realtime-2025-08-28) بشكل كبير بعدة طرق: يمكنه فهم التعليمات المعقدة وتنفيذها بشكل أفضل ، واستدعاء الأدوات الخارجية بشكل أكثر دقة ، وتوليد كلام يبدو أكثر طبيعية وعاطفية. من حيث السعر ، يبلغ إدخال الصوت 32 دولارا لكل مليون رمز مميز وإخراج الصوت 64 دولارا لكل مليون رمز مميز ، وهو أرخص بنسبة 20٪ من النموذج السابق. تدعم واجهة برمجة تطبيقات الوقت الفعلي الآن خوادم MCP البعيدة وإدخال الصور والمكالمات عبر بروتوكول بدء الجلسة (SIP). هذا يعني أن وكلاء الصوت في الذكاء الاصطناعي يصبحون أكثر قوة من خلال استدعاء أدوات أكثر تنوعا والحصول على معلومات سياقية أكثر ثراء. أصدرت OpenAI أيضا صوتين جديدين تماما: Cedar و Marin. هذان الصوتان هما مزايا حصرية لواجهة برمجة تطبيقات الوقت الفعلي. في الوقت نفسه ، تم تحديث الأصوات الثمانية الحالية وتحسينها. بالنسبة للمطورين والتطبيقات في الاتحاد الأوروبي، تدعم Realtime API الآن سياسات موقع بيانات الاتحاد الأوروبي بشكل كامل وتوفر امتثالا أكبر للبيانات. وفقا لمعيار Big Bench Audio ، الذي يقيس قدرات التفكير في النموذج ، حقق GPT-RealTime معدل دقة قدره 82.8٪ ، متجاوزا بكثير 65.6٪ من طراز الجيل السابق الذي تم إصداره في ديسمبر 2024. بالإضافة إلى ذلك ، أصدرت OpenAI نموذجا آخر يسمى gpt-audio (رقم الإصدار gpt-audio-2025-08-28). هذا هو أول نموذج صوتي يتم افتتاحه رسميا لواجهة برمجة تطبيقات Chat Completions REST. التسعير هو: 40 دولارا لكل مليون رمز مميز لإدخال الصوت و 80 دولارا لكل مليون رمز مميز لإخراج الصوت.
Tibor Blaho
Tibor Blaho‏29 أغسطس 2025
تعمل OpenAI على جعل واجهة برمجة تطبيقات الوقت الفعلي متاحة بشكل عام من خلال نموذج تحويل الكلام إلى كلام الأكثر تقدما في الوقت الفعلي والقدرات الجديدة لبناء وكلاء صوتيين جاهزين للإنتاج - يظهر نموذج gpt-realtime الجديد (gpt-realtime-2025-08-28) تحسينات في اتباع التعليمات المعقدة ، واستدعاء الأدوات بدقة ، وإنتاج كلام يبدو أكثر طبيعية وتعبيرا ، بسعر 32 دولارا لكل 1 مليون رمز إدخال صوت و 64 دولارا لكل 1 مليون رمز إخراج صوت (أرخص بنسبة 20٪ من النموذج السابق) - تدعم واجهة برمجة التطبيقات في الوقت الفعلي الآن خوادم MCP البعيدة ومدخلات الصور والمكالمات الهاتفية من خلال بروتوكول بدء الجلسة (SIP) ، مما يجعل الوكلاء الصوتيين أكثر قدرة من خلال الوصول إلى أدوات وسياق إضافيين - أصدرت OpenAI صوتين جديدين ، Cedar و Marin ، وهما متاحان حصريا في Realtime API ، إلى جانب تحديثات لأصواتهما الثمانية الحالية - تدعم واجهة برمجة التطبيقات في الوقت الفعلي بشكل كامل موقع بيانات الاتحاد الأوروبي للتطبيقات المستندة إلى الاتحاد الأوروبي وعلى قدرات قياس قياس Big Bench Audio ، يسجل GPT-Realtime دقة بنسبة 82.8٪ مقارنة بالنموذج السابق من ديسمبر 2024 الذي سجل 65.6٪ - أصدرت OpenAI أيضا gpt-audio (gpt-audio-2025-08-28) كأول نموذج صوتي متاح بشكل عام لواجهة برمجة تطبيقات Chat Completions REST ، بسعر 40 دولارا لكل 1 مليون رمز مميز لإدخال الصوت و 80 دولارا لكل 1 مليون رمز مميز لإخراج الصوت
‏‎35.69‏K