DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

A OpenAI fez outra "grande jogada": a API de voz em tempo real é totalmente aberta e o novo modelo torna as conversas de IA como pessoas reais A OpenAI abriu oficialmente sua API em tempo real (API em tempo real), lançando simultaneamente o modelo de conversação de voz mais avançado da empresa até o momento, gpt-realtime, e uma série de novos recursos para ajudar os desenvolvedores a criar agentes de voz de IA que podem ser usados em ambientes de produção. O modelo GPT-RealTime recém-lançado (número de versão gpt-realtime-2025-08-28) foi significativamente aprimorado de várias maneiras: ele pode entender e executar melhor instruções complexas, chamar ferramentas externas com mais precisão e gerar fala que soa mais natural e emocional. Em termos de preço, a entrada de áudio é de US$ 32 por milhão de tokens e a saída de áudio é de US$ 64 por milhão de tokens, o que é 20% mais barato que o modelo anterior. A API em tempo real agora oferece suporte a servidores MCP remotos, entrada de imagem e chamadas via SIP (Session Initiation Protocol). Isso significa que os agentes de voz de IA se tornam mais poderosos chamando ferramentas mais diversas e obtendo informações contextuais mais ricas. A OpenAI também lançou duas novas vozes: Cedar e Marin. Essas duas vozes são benefícios exclusivos da API em tempo real. Ao mesmo tempo, os oito sons existentes foram atualizados e otimizados. Para desenvolvedores e aplicativos na UE, a API Realtime agora oferece suporte total às políticas de residência de dados da UE e fornece maior conformidade de dados. No benchmark Big Bench Audio, que mede as capacidades de raciocínio do modelo, o GPT-RealTime alcançou uma taxa de precisão de 82,8%, superando em muito os 65,6% de seu modelo da geração anterior lançado em dezembro de 2024. Além disso, a OpenAI lançou outro modelo chamado gpt-audio (número da versão gpt-audio-2025-08-28). Este é o primeiro modelo de áudio a ser aberto oficialmente para a API REST de conclusões de bate-papo. O preço é: US$ 40 por milhão de tokens para entrada de áudio e US$ 80 por milhão de tokens para saída de áudio.

Melhores

Classificação

Favoritos