OpenAI делает API Realtime общедоступным с их самым продвинутым моделью преобразования речи в речь gpt-realtime и новыми возможностями для создания готовых к производству голосовых агентов - Новая модель gpt-realtime (gpt-realtime-2025-08-28) демонстрирует улучшения в следовании сложным инструкциям, точном вызове инструментов и производстве речи, которая звучит более естественно и выразительно, по цене 32 доллара за 1 миллион токенов аудиовхода и 64 доллара за 1 миллион токенов аудиовыхода (на 20% дешевле, чем предыдущая модель) - API Realtime теперь поддерживает удаленные серверы MCP, ввод изображений и телефонные звонки через Протокол Инициации Сессии (SIP), что делает голосовых агентов более способными благодаря доступу к дополнительным инструментам и контексту - OpenAI выпустила два новых голоса, Cedar и Marin, которые доступны исключительно в API Realtime, наряду с обновлениями их существующих восьми голосов - API Realtime полностью поддерживает резиденцию данных ЕС для приложений, основанных в ЕС, и по оценке Big Bench Audio, измеряющей способности рассуждения, gpt-realtime набирает 82,8% точности по сравнению с их предыдущей моделью от декабря 2024 года, которая набрала 65,6% - OpenAI также выпустила gpt-audio (gpt-audio-2025-08-28) как свою первую общедоступную аудиомодель для REST API Chat Completions, по цене 40 долларов за 1 миллион токенов аудиовхода и 80 долларов за 1 миллион токенов аудиовыхода
46,92K