OpenAI udělala další "velký krok": hlasové rozhraní API v reálném čase je plně otevřené a díky novému modelu se konverzace s umělou inteligencí podobají skutečným lidem Společnost OpenAI oficiálně otevřela své rozhraní API v reálném čase (Realtime API) a současně spustila dosud nejpokročilejší model hlasové konverzace ve společnosti, gpt-realtime, a řadu nových funkcí, které vývojářům pomohou vytvářet hlasové agenty s umělou inteligencí, které lze použít v produkčním prostředí. Nově vydaný model GPT-RealTime (číslo verze gpt-realtime-2025-08-28) byl výrazně vylepšen v několika ohledech: dokáže lépe porozumět složitým instrukcím a provádět je, přesněji volat externí nástroje a generovat řeč, která zní přirozeněji a emotivněji. Pokud jde o cenu, zvukový vstup je 32 USD za milion tokenů a zvukový výstup je 64 USD za milion tokenů, což je o 20 % levnější než u předchozího modelu. Realtime API nyní podporuje vzdálené MCP servery, obrazový vstup a volání prostřednictvím protokolu SIP (Session Initiation Protocol). To znamená, že hlasoví agenti s umělou inteligencí se stávají výkonnějšími tím, že volají rozmanitější nástroje a získávají bohatší kontextové informace. OpenAI také vydala dva zcela nové hlasy: Cedar a Marin. Tyto dva hlasy jsou exkluzivními výhodami Realtime API. Současně bylo aktualizováno a optimalizováno stávajících osm zvuků. Pro vývojáře a aplikace v EU nyní rozhraní Realtime API plně podporuje zásady rezidence dat EU a poskytuje lepší soulad s daty. V benchmarku Big Bench Audio, který měří schopnosti uvažování modelu, dosáhl GPT-RealTime míry přesnosti 82,8 %, což výrazně překonalo 65,6 % modelu předchozí generace uvedeného na trh v prosinci 2024. Kromě toho OpenAI vydala další model s názvem gpt-audio (číslo verze gpt-audio-2025-08-28). Jedná se o jejich první zvukový model, který byl oficiálně otevřen pro rozhraní REST API pro dokončování chatu. Cena je: 40 $ za milion tokenů pro audio vstup a $80 za milion tokenů pro audio výstup.
Tibor Blaho
Tibor Blaho29. 8. 2025
OpenAI zpřístupňuje rozhraní API v reálném čase díky svému nejpokročilejšímu modelu převodu řeči na řeč gpt-realtime a novým funkcím pro vytváření hlasových agentů připravených k produkci - Nový model gpt-realtime (gpt-realtime-2025-08-28) ukazuje vylepšení v dodržování složitých instrukcí, přesném volání nástrojů a produkci řeči, která zní přirozeněji a expresivněji, za cenu 32 USD za 1 milion zvukových vstupních tokenů a 64 USD za 1 milion zvukových výstupních tokenů (o 20 % levnější než předchozí model) - Realtime API nyní podporuje vzdálené MCP servery, obrazové vstupy a telefonní hovory prostřednictvím protokolu SIP (Session Initiation Protocol), díky čemuž jsou hlasoví agenti schopnější díky přístupu k dalším nástrojům a kontextu - OpenAI vydala dva nové hlasy, Cedar a Marin, které jsou dostupné exkluzivně v Realtime API, spolu s aktualizacemi jejich stávajících osmi hlasů - Realtime API plně podporuje EU Data Residency pro aplikace se sídlem v EU a na Big Bench Audio eval měřící možnosti uvažování, gpt-realtime dosahuje přesnosti 82,8 % ve srovnání s předchozím modelem z prosince 2024, který dosahuje 65,6 %. - OpenAI také vydala gpt-audio (gpt-audio-2025-08-28) jako svůj první obecně dostupný zvukový model pro Chat Completions REST API, jehož cena je 40 USD za 1 milion zvukových vstupních tokenů a 80 USD za 1 milion zvukových výstupních tokenů
35,68K