OpenAI lanza un "gran movimiento": API de voz en tiempo real completamente abierta, un nuevo modelo que hace que la conversación de IA sea como la de un ser humano. OpenAI ha abierto oficialmente su API en tiempo real (Realtime API), lanzando simultáneamente su modelo de conversación de voz más avanzado hasta la fecha, gpt-realtime, junto con una serie de nuevas funciones que ayudan a los desarrolladores a crear agentes de voz de IA que se pueden utilizar en entornos de producción. El nuevo modelo gpt-realtime (versión gpt-realtime-2025-08-28) presenta mejoras significativas en varios aspectos: puede entender y ejecutar mejor instrucciones complejas, invocar herramientas externas con mayor precisión, y la voz generada suena más natural y emocional. En cuanto a precios, la entrada de audio cuesta 32 dólares por cada millón de tokens, y la salida de audio 64 dólares por cada millón de tokens, un 20% más barato que los modelos anteriores. La API en tiempo real (Realtime API) ahora soporta servidores MCP remotos, entrada de imágenes, y también puede realizar llamadas a través del Protocolo de Inicio de Sesión (Session Initiation Protocol, SIP). Esto significa que los agentes de voz de IA pueden invocar una mayor variedad de herramientas y obtener información contextual más rica, volviéndose así más poderosos. OpenAI también ha lanzado dos nuevas voces: Cedar y Marin. Estas dos voces son un beneficio exclusivo de la API en tiempo real (Realtime API). Al mismo tiempo, las ocho voces existentes también han sido actualizadas y optimizadas. Para los desarrolladores y aplicaciones en la Unión Europea, la API en tiempo real (Realtime API) ahora cumple completamente con la política de residencia de datos de la UE (EU Data Residency), garantizando una mayor conformidad de datos. En la evaluación de referencia Big Bench Audio, que mide la capacidad de razonamiento del modelo, gpt-realtime alcanzó una precisión del 82.8%, superando con creces el 65.6% de su modelo anterior lanzado en diciembre de 2024. Además, OpenAI ha lanzado otro modelo llamado gpt-audio (versión gpt-audio-2025-08-28). Este es su primer modelo de audio que se abre oficialmente para la API REST de completaciones de chat (Chat Completions REST API). Los precios son: entrada de audio 40 dólares por cada millón de tokens, y salida de audio 80 dólares por cada millón de tokens.
Tibor Blaho
Tibor Blaho29 ago 2025
OpenAI está haciendo que la API en tiempo real esté disponible de manera general con su modelo de voz a voz más avanzado gpt-realtime y nuevas capacidades para construir agentes de voz listos para producción. - El nuevo modelo gpt-realtime (gpt-realtime-2025-08-28) muestra mejoras en el seguimiento de instrucciones complejas, la llamada a herramientas con precisión y la producción de voz que suena más natural y expresiva, con un precio de $32 por 1M de tokens de entrada de audio y $64 por 1M de tokens de salida de audio (un 20% más barato que el modelo anterior). - La API en tiempo real ahora admite servidores MCP remotos, entradas de imagen y llamadas telefónicas a través del Protocolo de Inicio de Sesión (SIP), haciendo que los agentes de voz sean más capaces al tener acceso a herramientas y contextos adicionales. - OpenAI lanzó dos nuevas voces, Cedar y Marin, que están disponibles exclusivamente en la API en tiempo real, junto con actualizaciones a sus ocho voces existentes. - La API en tiempo real admite completamente la Residencia de Datos de la UE para aplicaciones basadas en la UE y en la evaluación Big Bench Audio que mide las capacidades de razonamiento, gpt-realtime obtiene una precisión del 82.8% en comparación con su modelo anterior de diciembre de 2024 que obtuvo un 65.6%. - OpenAI también lanzó gpt-audio (gpt-audio-2025-08-28) como su primer modelo de audio disponible de manera general para la API REST de Completions de Chat, con un precio de $40 por 1M de tokens de entrada de audio y $80 por 1M de tokens de salida de audio.
35,68K