OpenAI está haciendo que la API en tiempo real esté disponible de manera general con su modelo de voz a voz más avanzado gpt-realtime y nuevas capacidades para construir agentes de voz listos para producción. - El nuevo modelo gpt-realtime (gpt-realtime-2025-08-28) muestra mejoras en el seguimiento de instrucciones complejas, la llamada a herramientas con precisión y la producción de voz que suena más natural y expresiva, con un precio de $32 por 1M de tokens de entrada de audio y $64 por 1M de tokens de salida de audio (un 20% más barato que el modelo anterior). - La API en tiempo real ahora admite servidores MCP remotos, entradas de imagen y llamadas telefónicas a través del Protocolo de Inicio de Sesión (SIP), haciendo que los agentes de voz sean más capaces al tener acceso a herramientas y contextos adicionales. - OpenAI lanzó dos nuevas voces, Cedar y Marin, que están disponibles exclusivamente en la API en tiempo real, junto con actualizaciones a sus ocho voces existentes. - La API en tiempo real admite completamente la Residencia de Datos de la UE para aplicaciones basadas en la UE y en la evaluación Big Bench Audio que mide las capacidades de razonamiento, gpt-realtime obtiene una precisión del 82.8% en comparación con su modelo anterior de diciembre de 2024 que obtuvo un 65.6%. - OpenAI también lanzó gpt-audio (gpt-audio-2025-08-28) como su primer modelo de audio disponible de manera general para la API REST de Completions de Chat, con un precio de $40 por 1M de tokens de entrada de audio y $80 por 1M de tokens de salida de audio.
48,13K