Loja DApp | Hub Web3 para eventos e jogos

Tópicos populares

Medidas de confiança simples baseadas na probabilidade logarítmica média usadas para filtrar rastros de raciocínio. Mais uma vez, uma pesquisa muito interessante possibilitada pelo acesso a modelos de código aberto de alta qualidade. Procure por pipelines cada vez mais poderosos com a arquitetura "gerador-verificador" que elimina resultados ruins. O verificador pode ser uma instância de modelo ou algum tipo de função matemática, como as métricas de confiança internas desenvolvidas neste artigo. Modelos existentes são muito poderosos quando usados com esse tipo de pipeline e grandes orçamentos de tokens. (Aqui, ~1E8 tokens usados para AIME 2025.) "DeepConf aproveita sinais de confiança internos do modelo para filtrar dinamicamente rastros de raciocínio de baixa qualidade durante ou após a geração. Não requer treinamento adicional do modelo ou ajuste de hiperparâmetros e pode ser integrado perfeitamente em estruturas de serviço existentes. Avaliamos o DeepConf em uma variedade de tarefas de raciocínio e os mais recentes modelos de código aberto, incluindo Qwen 3 e a série GPT-OSS. Notavelmente, em benchmarks desafiadores como AIME 2025, o DeepConf@512 alcança até 99,9% de precisão e reduz os tokens gerados em até 84,7% em comparação com o pensamento paralelo completo." Note a ironia desses pesquisadores da Meta usando modelos de código aberto Qwen, GPT-OSS e DeepSeek, mas nenhum Llama 😢

5K

Top

Classificação

Favoritos

Tendências on-chain

Popular no X

Principais financiamentos atuais

Mais notável