Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
OpenAI udělala další "velký krok": hlasové rozhraní API v reálném čase je plně otevřené a díky novému modelu se konverzace s umělou inteligencí podobají skutečným lidem
Společnost OpenAI oficiálně otevřela své rozhraní API v reálném čase (Realtime API) a současně spustila dosud nejpokročilejší model hlasové konverzace ve společnosti, gpt-realtime, a řadu nových funkcí, které vývojářům pomohou vytvářet hlasové agenty s umělou inteligencí, které lze použít v produkčním prostředí.
Nově vydaný model GPT-RealTime (číslo verze gpt-realtime-2025-08-28) byl výrazně vylepšen v několika ohledech: dokáže lépe porozumět složitým instrukcím a provádět je, přesněji volat externí nástroje a generovat řeč, která zní přirozeněji a emotivněji. Pokud jde o cenu, zvukový vstup je 32 USD za milion tokenů a zvukový výstup je 64 USD za milion tokenů, což je o 20 % levnější než u předchozího modelu.
Realtime API nyní podporuje vzdálené MCP servery, obrazový vstup a volání prostřednictvím protokolu SIP (Session Initiation Protocol). To znamená, že hlasoví agenti s umělou inteligencí se stávají výkonnějšími tím, že volají rozmanitější nástroje a získávají bohatší kontextové informace.
OpenAI také vydala dva zcela nové hlasy: Cedar a Marin. Tyto dva hlasy jsou exkluzivními výhodami Realtime API. Současně bylo aktualizováno a optimalizováno stávajících osm zvuků.
Pro vývojáře a aplikace v EU nyní rozhraní Realtime API plně podporuje zásady rezidence dat EU a poskytuje lepší soulad s daty. V benchmarku Big Bench Audio, který měří schopnosti uvažování modelu, dosáhl GPT-RealTime míry přesnosti 82,8 %, což výrazně překonalo 65,6 % modelu předchozí generace uvedeného na trh v prosinci 2024.
Kromě toho OpenAI vydala další model s názvem gpt-audio (číslo verze gpt-audio-2025-08-28). Jedná se o jejich první zvukový model, který byl oficiálně otevřen pro rozhraní REST API pro dokončování chatu. Cena je: 40 $ za milion tokenů pro audio vstup a $80 za milion tokenů pro audio výstup.

29. 8. 2025
OpenAI zpřístupňuje rozhraní API v reálném čase díky svému nejpokročilejšímu modelu převodu řeči na řeč gpt-realtime a novým funkcím pro vytváření hlasových agentů připravených k produkci
- Nový model gpt-realtime (gpt-realtime-2025-08-28) ukazuje vylepšení v dodržování složitých instrukcí, přesném volání nástrojů a produkci řeči, která zní přirozeněji a expresivněji, za cenu 32 USD za 1 milion zvukových vstupních tokenů a 64 USD za 1 milion zvukových výstupních tokenů (o 20 % levnější než předchozí model)
- Realtime API nyní podporuje vzdálené MCP servery, obrazové vstupy a telefonní hovory prostřednictvím protokolu SIP (Session Initiation Protocol), díky čemuž jsou hlasoví agenti schopnější díky přístupu k dalším nástrojům a kontextu
- OpenAI vydala dva nové hlasy, Cedar a Marin, které jsou dostupné exkluzivně v Realtime API, spolu s aktualizacemi jejich stávajících osmi hlasů
- Realtime API plně podporuje EU Data Residency pro aplikace se sídlem v EU a na Big Bench Audio eval měřící možnosti uvažování, gpt-realtime dosahuje přesnosti 82,8 % ve srovnání s předchozím modelem z prosince 2024, který dosahuje 65,6 %.
- OpenAI také vydala gpt-audio (gpt-audio-2025-08-28) jako svůj první obecně dostupný zvukový model pro Chat Completions REST API, jehož cena je 40 USD za 1 milion zvukových vstupních tokenů a 80 USD za 1 milion zvukových výstupních tokenů

35,68K
Top
Hodnocení
Oblíbené