Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

OpenAI lại tung ra "đòn lớn": API giọng nói thời gian thực hoàn toàn mở, mô hình mới giúp AI trò chuyện như người thật OpenAI chính thức mở API thời gian thực (Realtime API), đồng thời ra mắt mô hình đối thoại giọng nói tiên tiến nhất của công ty gpt-realtime, cùng với một loạt tính năng mới, hỗ trợ các nhà phát triển xây dựng các tác nhân giọng nói AI có thể sử dụng trong môi trường sản xuất. Mô hình gpt-realtime mới phát hành (số phiên bản gpt-realtime-2025-08-28) có nhiều cải tiến đáng kể: nó có thể hiểu và thực hiện các chỉ dẫn phức tạp tốt hơn, gọi các công cụ bên ngoài chính xác hơn, và giọng nói được tạo ra nghe tự nhiên hơn, giàu cảm xúc hơn. Về giá cả, đầu vào âm thanh là 32 đô la cho mỗi triệu token, đầu ra âm thanh là 64 đô la cho mỗi triệu token, rẻ hơn 20% so với các mô hình trước đó. API thời gian thực (Realtime API) hiện hỗ trợ máy chủ MCP từ xa, đầu vào hình ảnh, và có thể thực hiện cuộc gọi qua giao thức khởi tạo phiên (Session Initiation Protocol, SIP). Điều này có nghĩa là các tác nhân giọng nói AI có thể gọi nhiều công cụ hơn, thu thập thông tin ngữ cảnh phong phú hơn, từ đó trở nên mạnh mẽ hơn. OpenAI cũng đã phát hành hai giọng nói hoàn toàn mới: Cedar và Marin. Hai giọng nói này là đặc quyền của API thời gian thực (Realtime API). Đồng thời, tám giọng nói hiện có cũng đã được cập nhật và tối ưu hóa. Đối với các nhà phát triển và ứng dụng ở Liên minh Châu Âu, API thời gian thực (Realtime API) hiện hoàn toàn hỗ trợ chính sách cư trú dữ liệu EU (EU Data Residency), đảm bảo tuân thủ dữ liệu tốt hơn. Trong bài kiểm tra Big Bench Audio đánh giá khả năng suy luận của mô hình, độ chính xác của gpt-realtime đạt 82.8%, vượt xa mô hình thế hệ trước được phát hành vào tháng 12 năm 2024 với 65.6%. Ngoài ra, OpenAI cũng đã phát hành một mô hình khác có tên gpt-audio (số phiên bản gpt-audio-2025-08-28). Đây là mô hình âm thanh đầu tiên của họ chính thức mở cho REST API hoàn thành trò chuyện (Chat Completions REST API). Giá cả là: đầu vào âm thanh 40 đô la cho mỗi triệu token, đầu ra âm thanh 80 đô la cho mỗi triệu token.

35,69K

Hàng đầu

Thứ hạng

Yêu thích