OpenAI ponownie wprowadza "wielką nowość": API do głosowej komunikacji w czasie rzeczywistym jest teraz w pełni otwarte, a nowy model sprawia, że rozmowy z AI są jak z prawdziwą osobą. OpenAI oficjalnie otworzyło swoje API w czasie rzeczywistym (Realtime API), wprowadzając jednocześnie najnowocześniejszy model do rozmów głosowych gpt-realtime oraz szereg nowych funkcji, które wspierają deweloperów w tworzeniu AI jako inteligentnych agentów głosowych do zastosowań produkcyjnych. Nowo wydany model gpt-realtime (numer wersji gpt-realtime-2025-08-28) ma znaczące ulepszenia w wielu aspektach: lepiej rozumie i wykonuje złożone polecenia, dokładniej korzysta z zewnętrznych narzędzi, a generowany głos brzmi bardziej naturalnie i emocjonalnie. W kwestii cen, wejście audio kosztuje 32 dolary za milion tokenów, a wyjście audio 64 dolary za milion tokenów, co jest o 20% tańsze niż w poprzednich modelach. Realtime API teraz wspiera zdalne serwery MCP, wejścia obrazowe, a także umożliwia wykonywanie połączeń telefonicznych za pomocą protokołu inicjacji sesji (Session Initiation Protocol, SIP). Oznacza to, że inteligentni agenci głosowi AI mogą korzystać z bardziej zróżnicowanych narzędzi i uzyskiwać bogatsze informacje kontekstowe, co czyni je jeszcze potężniejszymi. OpenAI wprowadziło również dwa nowe głosy: Cedar i Marin. Te dwa głosy są ekskluzywną korzyścią związaną z API w czasie rzeczywistym (Realtime API). Równocześnie istniejące osiem głosów zostało zaktualizowanych i zoptymalizowanych. Dla deweloperów i aplikacji znajdujących się w Unii Europejskiej, API w czasie rzeczywistym (Realtime API) teraz w pełni wspiera politykę rezydencji danych w UE (EU Data Residency), co zapewnia większą zgodność z przepisami dotyczącymi danych. W ocenie zdolności wnioskowania modelu na podstawie benchmarku Big Bench Audio, gpt-realtime osiągnęło dokładność na poziomie 82,8%, znacznie przewyższając 65,6% swojego poprzednika wydanego w grudniu 2024 roku. Oprócz tego, OpenAI wprowadziło kolejny model o nazwie gpt-audio (numer wersji gpt-audio-2025-08-28). To ich pierwszy model audio, który jest oficjalnie otwarty dla REST API do uzupełniania rozmów (Chat Completions REST API). Ceny to: wejście audio 40 dolarów za milion tokenów, a wyjście audio 80 dolarów za milion tokenów.
Tibor Blaho
Tibor Blaho29 sie 2025
OpenAI udostępnia API Realtime w wersji ogólnej z ich najnowocześniejszym modelem mowy na mowę gpt-realtime oraz nowymi możliwościami budowania gotowych do produkcji agentów głosowych - Nowy model gpt-realtime (gpt-realtime-2025-08-28) wykazuje poprawę w śledzeniu złożonych instrukcji, precyzyjnym korzystaniu z narzędzi oraz produkcji mowy, która brzmi bardziej naturalnie i ekspresyjnie, w cenie 32 USD za 1M tokenów audio wejściowych i 64 USD za 1M tokenów audio wyjściowych (o 20% taniej niż poprzedni model) - API Realtime teraz obsługuje zdalne serwery MCP, wejścia obrazowe oraz połączenia telefoniczne za pomocą protokołu SIP, co czyni agentów głosowych bardziej zdolnymi dzięki dostępowi do dodatkowych narzędzi i kontekstu - OpenAI wydało dwa nowe głosy, Cedar i Marin, które są dostępne wyłącznie w API Realtime, obok aktualizacji ich istniejących ośmiu głosów - API Realtime w pełni wspiera rezydencję danych UE dla aplikacji z siedzibą w UE, a w teście Big Bench Audio oceniającym zdolności rozumowania, gpt-realtime uzyskuje 82,8% dokładności w porównaniu do ich poprzedniego modelu z grudnia 2024, który uzyskał 65,6% - OpenAI wydało również gpt-audio (gpt-audio-2025-08-28) jako swój pierwszy ogólnie dostępny model audio dla REST API Chat Completions, w cenie 40 USD za 1M tokenów audio wejściowych i 80 USD za 1M tokenów audio wyjściowych
35,69K