OpenAI udostępnia API Realtime w wersji ogólnej z ich najnowocześniejszym modelem mowy na mowę gpt-realtime oraz nowymi możliwościami budowania gotowych do produkcji agentów głosowych - Nowy model gpt-realtime (gpt-realtime-2025-08-28) wykazuje poprawę w śledzeniu złożonych instrukcji, precyzyjnym korzystaniu z narzędzi oraz produkcji mowy, która brzmi bardziej naturalnie i ekspresyjnie, w cenie 32 USD za 1M tokenów audio wejściowych i 64 USD za 1M tokenów audio wyjściowych (o 20% taniej niż poprzedni model) - API Realtime teraz obsługuje zdalne serwery MCP, wejścia obrazowe oraz połączenia telefoniczne za pomocą protokołu SIP, co czyni agentów głosowych bardziej zdolnymi dzięki dostępowi do dodatkowych narzędzi i kontekstu - OpenAI wydało dwa nowe głosy, Cedar i Marin, które są dostępne wyłącznie w API Realtime, obok aktualizacji ich istniejących ośmiu głosów - API Realtime w pełni wspiera rezydencję danych UE dla aplikacji z siedzibą w UE, a w teście Big Bench Audio oceniającym zdolności rozumowania, gpt-realtime uzyskuje 82,8% dokładności w porównaniu do ich poprzedniego modelu z grudnia 2024, który uzyskał 65,6% - OpenAI wydało również gpt-audio (gpt-audio-2025-08-28) jako swój pierwszy ogólnie dostępny model audio dla REST API Chat Completions, w cenie 40 USD za 1M tokenów audio wejściowych i 80 USD za 1M tokenów audio wyjściowych
48,12K