DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Misure di fiducia semplici basate sulla probabilità logaritmica media utilizzate per filtrare le tracce di ragionamento. Ancora una volta, una ricerca molto interessante abilitata dall'accesso a modelli open source di alta qualità. Cerca pipeline sempre più potenti con architettura "generatore-verificatore" che elimina i risultati scadenti. Il verificatore può essere un'istanza del modello, o qualche tipo di funzione matematica come le metriche di fiducia interne sviluppate in questo documento. I modelli esistenti sono molto potenti quando utilizzati con questo tipo di pipeline e grandi budget di token. (Qui, ~1E8 token utilizzati per AIME 2025.) "DeepConf sfrutta i segnali di fiducia interni del modello per filtrare dinamicamente le tracce di ragionamento di bassa qualità durante o dopo la generazione. Non richiede ulteriori addestramenti del modello o ottimizzazione degli iperparametri e può essere integrato senza problemi nei framework di servizio esistenti. Valutiamo DeepConf su una varietà di compiti di ragionamento e sui più recenti modelli open-source, inclusi Qwen 3 e la serie GPT-OSS. Notabilmente, su benchmark impegnativi come AIME 2025, DeepConf@512 raggiunge fino al 99,9% di accuratezza e riduce i token generati fino all'84,7% rispetto al pensiero parallelo completo." Nota l'ironia di questi ricercatori di Meta che utilizzano modelli OS Qwen, GPT-OSS e DeepSeek, ma non Llama 😢

5K

Principali

Ranking

Preferiti

On-chain di tendenza

Di tendenza su X

Principali fondi recenti

Più popolari