DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

OpenAI lanza un "gran movimiento": API de voz en tiempo real completamente abierta, un nuevo modelo que hace que la conversación de IA sea como la de un ser humano. OpenAI ha abierto oficialmente su API en tiempo real (Realtime API), lanzando simultáneamente su modelo de conversación de voz más avanzado hasta la fecha, gpt-realtime, junto con una serie de nuevas funciones que ayudan a los desarrolladores a crear agentes de voz de IA que se pueden utilizar en entornos de producción. El nuevo modelo gpt-realtime (versión gpt-realtime-2025-08-28) presenta mejoras significativas en varios aspectos: puede entender y ejecutar mejor instrucciones complejas, invocar herramientas externas con mayor precisión, y la voz generada suena más natural y emocional. En cuanto a precios, la entrada de audio cuesta 32 dólares por cada millón de tokens, y la salida de audio 64 dólares por cada millón de tokens, un 20% más barato que los modelos anteriores. La API en tiempo real (Realtime API) ahora soporta servidores MCP remotos, entrada de imágenes, y también puede realizar llamadas a través del Protocolo de Inicio de Sesión (Session Initiation Protocol, SIP). Esto significa que los agentes de voz de IA pueden invocar una mayor variedad de herramientas y obtener información contextual más rica, volviéndose así más poderosos. OpenAI también ha lanzado dos nuevas voces: Cedar y Marin. Estas dos voces son un beneficio exclusivo de la API en tiempo real (Realtime API). Al mismo tiempo, las ocho voces existentes también han sido actualizadas y optimizadas. Para los desarrolladores y aplicaciones en la Unión Europea, la API en tiempo real (Realtime API) ahora cumple completamente con la política de residencia de datos de la UE (EU Data Residency), garantizando una mayor conformidad de datos. En la evaluación de referencia Big Bench Audio, que mide la capacidad de razonamiento del modelo, gpt-realtime alcanzó una precisión del 82.8%, superando con creces el 65.6% de su modelo anterior lanzado en diciembre de 2024. Además, OpenAI ha lanzado otro modelo llamado gpt-audio (versión gpt-audio-2025-08-28). Este es su primer modelo de audio que se abre oficialmente para la API REST de completaciones de chat (Chat Completions REST API). Los precios son: entrada de audio 40 dólares por cada millón de tokens, y salida de audio 80 dólares por cada millón de tokens.

35,68K

Parte superior

Clasificación

Favoritos