OpenAI снова делает "большой шаг": API для голосовой связи в реальном времени полностью открыт, новая модель делает диалоги AI похожими на человеческие OpenAI официально открывает свой API в реальном времени (Realtime API), одновременно представляя свою самую продвинутую модель голосового общения gpt-realtime и ряд новых функций, которые помогут разработчикам создавать AI-голосовых агентов, пригодных для производственной среды. Новая модель gpt-realtime (версия gpt-realtime-2025-08-28) значительно улучшена в нескольких аспектах: она лучше понимает и выполняет сложные команды, более точно вызывает внешние инструменты, а также генерируемый голос звучит более естественно и эмоционально. Что касается цен, ввод аудио стоит 32 доллара за миллион токенов, вывод аудио — 64 доллара за миллион токенов, что на 20% дешевле предыдущих моделей. API в реальном времени (Realtime API) теперь поддерживает удаленные серверы MCP, ввод изображений и возможность совершать звонки через протокол инициации сеанса (Session Initiation Protocol, SIP). Это означает, что AI-голосовые агенты могут использовать более разнообразные инструменты и получать более богатую контекстную информацию, что делает их более мощными. OpenAI также представила два новых голоса: Cedar и Marin. Эти два голоса являются эксклюзивным преимуществом API в реальном времени (Realtime API). В то же время существующие восемь голосов также были обновлены и оптимизированы. Для разработчиков и приложений в Европейском Союзе API в реальном времени (Realtime API) теперь полностью поддерживает политику резидентства данных ЕС (EU Data Residency), что обеспечивает большую безопасность данных. В оценочном тесте Big Bench Audio, измеряющем способности модели, gpt-realtime достигла точности 82,8%, что значительно превышает 65,6% предыдущей модели, выпущенной в декабре 2024 года. Кроме того, OpenAI представила еще одну модель под названием gpt-audio (версия gpt-audio-2025-08-28). Это первая аудиомодель, официально открытая для REST API дополнений чата (Chat Completions REST API). Цены составляют: ввод аудио 40 долларов за миллион токенов, вывод аудио 80 долларов за миллион токенов.
Tibor Blaho
Tibor Blaho15 часов назад
OpenAI делает API Realtime общедоступным с их самым продвинутым моделью преобразования речи в речь gpt-realtime и новыми возможностями для создания готовых к производству голосовых агентов - Новая модель gpt-realtime (gpt-realtime-2025-08-28) демонстрирует улучшения в следовании сложным инструкциям, точном вызове инструментов и производстве речи, которая звучит более естественно и выразительно, по цене 32 доллара за 1 миллион токенов аудиовхода и 64 доллара за 1 миллион токенов аудиовыхода (на 20% дешевле, чем предыдущая модель) - API Realtime теперь поддерживает удаленные серверы MCP, ввод изображений и телефонные звонки через Протокол Инициации Сессии (SIP), что делает голосовых агентов более способными благодаря доступу к дополнительным инструментам и контексту - OpenAI выпустила два новых голоса, Cedar и Marin, которые доступны исключительно в API Realtime, наряду с обновлениями их существующих восьми голосов - API Realtime полностью поддерживает резиденцию данных ЕС для приложений, основанных в ЕС, и по оценке Big Bench Audio, измеряющей способности рассуждения, gpt-realtime набирает 82,8% точности по сравнению с их предыдущей моделью от декабря 2024 года, которая набрала 65,6% - OpenAI также выпустила gpt-audio (gpt-audio-2025-08-28) как свою первую общедоступную аудиомодель для REST API Chat Completions, по цене 40 долларов за 1 миллион токенов аудиовхода и 80 долларов за 1 миллион токенов аудиовыхода
21,99K