OpenAI lại tung ra "đòn lớn": API giọng nói thời gian thực hoàn toàn mở, mô hình mới giúp AI trò chuyện như người thật OpenAI chính thức mở API thời gian thực (Realtime API), đồng thời ra mắt mô hình đối thoại giọng nói tiên tiến nhất của công ty gpt-realtime, cùng với một loạt tính năng mới, hỗ trợ các nhà phát triển xây dựng các tác nhân giọng nói AI có thể sử dụng trong môi trường sản xuất. Mô hình gpt-realtime mới phát hành (số phiên bản gpt-realtime-2025-08-28) có nhiều cải tiến đáng kể: nó có thể hiểu và thực hiện các chỉ dẫn phức tạp tốt hơn, gọi các công cụ bên ngoài chính xác hơn, và giọng nói được tạo ra nghe tự nhiên hơn, giàu cảm xúc hơn. Về giá cả, đầu vào âm thanh là 32 đô la cho mỗi triệu token, đầu ra âm thanh là 64 đô la cho mỗi triệu token, rẻ hơn 20% so với các mô hình trước đó. API thời gian thực (Realtime API) hiện hỗ trợ máy chủ MCP từ xa, đầu vào hình ảnh, và có thể thực hiện cuộc gọi qua giao thức khởi tạo phiên (Session Initiation Protocol, SIP). Điều này có nghĩa là các tác nhân giọng nói AI có thể gọi nhiều công cụ hơn, thu thập thông tin ngữ cảnh phong phú hơn, từ đó trở nên mạnh mẽ hơn. OpenAI cũng đã phát hành hai giọng nói hoàn toàn mới: Cedar và Marin. Hai giọng nói này là đặc quyền của API thời gian thực (Realtime API). Đồng thời, tám giọng nói hiện có cũng đã được cập nhật và tối ưu hóa. Đối với các nhà phát triển và ứng dụng ở Liên minh Châu Âu, API thời gian thực (Realtime API) hiện hoàn toàn hỗ trợ chính sách cư trú dữ liệu EU (EU Data Residency), đảm bảo tuân thủ dữ liệu tốt hơn. Trong bài kiểm tra Big Bench Audio đánh giá khả năng suy luận của mô hình, độ chính xác của gpt-realtime đạt 82.8%, vượt xa mô hình thế hệ trước được phát hành vào tháng 12 năm 2024 với 65.6%. Ngoài ra, OpenAI cũng đã phát hành một mô hình khác có tên gpt-audio (số phiên bản gpt-audio-2025-08-28). Đây là mô hình âm thanh đầu tiên của họ chính thức mở cho REST API hoàn thành trò chuyện (Chat Completions REST API). Giá cả là: đầu vào âm thanh 40 đô la cho mỗi triệu token, đầu ra âm thanh 80 đô la cho mỗi triệu token.
Tibor Blaho
Tibor Blaho29 thg 8, 2025
OpenAI đang cung cấp API Realtime cho mọi người với mô hình chuyển đổi giọng nói thành giọng nói tiên tiến nhất của họ là gpt-realtime và các khả năng mới để xây dựng các tác nhân giọng nói sẵn sàng cho sản xuất. - Mô hình gpt-realtime mới (gpt-realtime-2025-08-28) cho thấy sự cải thiện trong việc thực hiện các hướng dẫn phức tạp, gọi công cụ một cách chính xác và sản xuất giọng nói nghe tự nhiên và biểu cảm hơn, với giá 32 đô la cho 1 triệu token đầu vào âm thanh và 64 đô la cho 1 triệu token đầu ra âm thanh (rẻ hơn 20% so với mô hình trước đó). - API Realtime hiện hỗ trợ các máy chủ MCP từ xa, đầu vào hình ảnh và gọi điện thoại thông qua Giao thức Khởi tạo Phiên (SIP), giúp các tác nhân giọng nói có khả năng hơn thông qua việc truy cập vào các công cụ và ngữ cảnh bổ sung. - OpenAI đã phát hành hai giọng nói mới, Cedar và Marin, chỉ có sẵn trong API Realtime, cùng với các bản cập nhật cho tám giọng nói hiện có của họ. - API Realtime hoàn toàn hỗ trợ Định cư Dữ liệu EU cho các ứng dụng có trụ sở tại EU và trong bài đánh giá Big Bench Audio đo lường khả năng lý luận, gpt-realtime đạt 82,8% độ chính xác so với mô hình trước đó của họ từ tháng 12 năm 2024 đạt 65,6%. - OpenAI cũng đã phát hành gpt-audio (gpt-audio-2025-08-28) như mô hình âm thanh đầu tiên có sẵn cho API Chat Completions REST, với giá 40 đô la cho 1 triệu token đầu vào âm thanh và 80 đô la cho 1 triệu token đầu ra âm thanh.
35,69K