OpenAI đang cung cấp API Realtime cho mọi người với mô hình chuyển đổi giọng nói thành giọng nói tiên tiến nhất của họ là gpt-realtime và các khả năng mới để xây dựng các tác nhân giọng nói sẵn sàng cho sản xuất. - Mô hình gpt-realtime mới (gpt-realtime-2025-08-28) cho thấy sự cải thiện trong việc thực hiện các hướng dẫn phức tạp, gọi công cụ một cách chính xác và sản xuất giọng nói nghe tự nhiên và biểu cảm hơn, với giá 32 đô la cho 1 triệu token đầu vào âm thanh và 64 đô la cho 1 triệu token đầu ra âm thanh (rẻ hơn 20% so với mô hình trước đó). - API Realtime hiện hỗ trợ các máy chủ MCP từ xa, đầu vào hình ảnh và gọi điện thoại thông qua Giao thức Khởi tạo Phiên (SIP), giúp các tác nhân giọng nói có khả năng hơn thông qua việc truy cập vào các công cụ và ngữ cảnh bổ sung. - OpenAI đã phát hành hai giọng nói mới, Cedar và Marin, chỉ có sẵn trong API Realtime, cùng với các bản cập nhật cho tám giọng nói hiện có của họ. - API Realtime hoàn toàn hỗ trợ Định cư Dữ liệu EU cho các ứng dụng có trụ sở tại EU và trong bài đánh giá Big Bench Audio đo lường khả năng lý luận, gpt-realtime đạt 82,8% độ chính xác so với mô hình trước đó của họ từ tháng 12 năm 2024 đạt 65,6%. - OpenAI cũng đã phát hành gpt-audio (gpt-audio-2025-08-28) như mô hình âm thanh đầu tiên có sẵn cho API Chat Completions REST, với giá 40 đô la cho 1 triệu token đầu vào âm thanh và 80 đô la cho 1 triệu token đầu ra âm thanh.
48,13K