Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

OpenAI ponownie wprowadza "wielką nowość": API do głosowej komunikacji w czasie rzeczywistym jest teraz w pełni otwarte, a nowy model sprawia, że rozmowy z AI są jak z prawdziwą osobą. OpenAI oficjalnie otworzyło swoje API w czasie rzeczywistym (Realtime API), wprowadzając jednocześnie najnowocześniejszy model do rozmów głosowych gpt-realtime oraz szereg nowych funkcji, które wspierają deweloperów w tworzeniu AI jako inteligentnych agentów głosowych do zastosowań produkcyjnych. Nowo wydany model gpt-realtime (numer wersji gpt-realtime-2025-08-28) ma znaczące ulepszenia w wielu aspektach: lepiej rozumie i wykonuje złożone polecenia, dokładniej korzysta z zewnętrznych narzędzi, a generowany głos brzmi bardziej naturalnie i emocjonalnie. W kwestii cen, wejście audio kosztuje 32 dolary za milion tokenów, a wyjście audio 64 dolary za milion tokenów, co jest o 20% tańsze niż w poprzednich modelach. Realtime API teraz wspiera zdalne serwery MCP, wejścia obrazowe, a także umożliwia wykonywanie połączeń telefonicznych za pomocą protokołu inicjacji sesji (Session Initiation Protocol, SIP). Oznacza to, że inteligentni agenci głosowi AI mogą korzystać z bardziej zróżnicowanych narzędzi i uzyskiwać bogatsze informacje kontekstowe, co czyni je jeszcze potężniejszymi. OpenAI wprowadziło również dwa nowe głosy: Cedar i Marin. Te dwa głosy są ekskluzywną korzyścią związaną z API w czasie rzeczywistym (Realtime API). Równocześnie istniejące osiem głosów zostało zaktualizowanych i zoptymalizowanych. Dla deweloperów i aplikacji znajdujących się w Unii Europejskiej, API w czasie rzeczywistym (Realtime API) teraz w pełni wspiera politykę rezydencji danych w UE (EU Data Residency), co zapewnia większą zgodność z przepisami dotyczącymi danych. W ocenie zdolności wnioskowania modelu na podstawie benchmarku Big Bench Audio, gpt-realtime osiągnęło dokładność na poziomie 82,8%, znacznie przewyższając 65,6% swojego poprzednika wydanego w grudniu 2024 roku. Oprócz tego, OpenAI wprowadziło kolejny model o nazwie gpt-audio (numer wersji gpt-audio-2025-08-28). To ich pierwszy model audio, który jest oficjalnie otwarty dla REST API do uzupełniania rozmów (Chat Completions REST API). Ceny to: wejście audio 40 dolarów za milion tokenów, a wyjście audio 80 dolarów za milion tokenów.

35,69K

Najlepsze

Ranking

Ulubione