DApp Store | Web3 Hub for hendelser og spill

Populære emner

Enkle konfidensmål basert på gjennomsnittlig loggsannsynlighet som brukes til å filtrere resonneringsspor. Nok en gang, veldig fin forskning muliggjort av tilgang til åpen kildekode-modeller av høy kvalitet. Se etter kraftigere og kraftigere rørledninger med "generator-verifikator"-arkitektur som beskjærer dårlige resultater. Verifikatoren kan være en modellforekomst, eller en slags matematisk funksjon som de interne konfidensmålingene utviklet i denne artikkelen. Eksisterende modeller er svært kraftige når de brukes med denne typen pipeline og store tokenbudsjetter. (Her brukes ~1E8-tokens for AIME 2025.) "DeepConf utnytter modellens interne konfidenssignaler for dynamisk å filtrere ut resonnementspor av lav kvalitet under eller etter generering. Den krever ingen ekstra modellopplæring eller justering av hyperparametere og kan integreres sømløst i eksisterende serveringsrammeverk. Vi evaluerer DeepConf på tvers av en rekke resonneringsoppgaver og de nyeste åpen kildekode-modellene, inkludert Qwen 3 og GPT-OSS-serien. Spesielt, på utfordrende benchmarks som AIME 2025, oppnår DeepConf@512 opptil 99,9 % nøyaktighet og reduserer genererte tokens med opptil 84,7 % sammenlignet med full parallell tenkning.» Legg merke til ironien i at disse Meta-forskerne bruker OS-modellene Qwen, GPT-OSS og DeepSeek, men ingen lama 😢

4,99K

Topp

Rangering

Favoritter

Trendende onchain

Trendende på X

Nylig toppfinansiering

Mest lagt merke til