Misure di fiducia semplici basate sulla probabilità logaritmica media utilizzate per filtrare le tracce di ragionamento. Ancora una volta, una ricerca molto interessante abilitata dall'accesso a modelli open source di alta qualità. Cerca pipeline sempre più potenti con architettura "generatore-verificatore" che elimina i risultati scadenti. Il verificatore può essere un'istanza del modello, o qualche tipo di funzione matematica come le metriche di fiducia interne sviluppate in questo documento. I modelli esistenti sono molto potenti quando utilizzati con questo tipo di pipeline e grandi budget di token. (Qui, ~1E8 token utilizzati per AIME 2025.) "DeepConf sfrutta i segnali di fiducia interni del modello per filtrare dinamicamente le tracce di ragionamento di bassa qualità durante o dopo la generazione. Non richiede ulteriori addestramenti del modello o ottimizzazione degli iperparametri e può essere integrato senza problemi nei framework di servizio esistenti. Valutiamo DeepConf su una varietà di compiti di ragionamento e sui più recenti modelli open-source, inclusi Qwen 3 e la serie GPT-OSS. Notabilmente, su benchmark impegnativi come AIME 2025, DeepConf@512 raggiunge fino al 99,9% di accuratezza e riduce i token generati fino all'84,7% rispetto al pensiero parallelo completo." Nota l'ironia di questi ricercatori di Meta che utilizzano modelli OS Qwen, GPT-OSS e DeepSeek, ma non Llama 😢
Jiawei Zhao
Jiawei Zhao23 ago, 04:00
Introducendo DeepConf: Pensa in Profondità con Fiducia 🚀 Primo metodo per raggiungere il 99,9% su AIME 2025 con modelli open-source! Utilizzando GPT-OSS-120B anche senza strumenti, abbiamo raggiunto questa precisione quasi perfetta risparmiando fino all'85% dei token generati. Offre anche molti forti vantaggi per il pensiero parallelo: 🔥 Aumento delle prestazioni: ~10% di precisione su modelli e dataset ⚡ Ultra-efficiente: Fino all'85% in meno di token generati 🔧 Plug & play: Funziona con QUALSIASI modello esistente - nessun addestramento necessario (niente ottimizzazione degli iperparametri!) ⭐ Facile da implementare: Solo ~50 righe di codice in vLLM (vedi PR qui sotto) 📚 Documento: 🌐 Progetto: lavoro congiunto con: @FuYichao123 , xuewei_wang, @tydsh (vedi dettagli nei commenti qui sotto)
5K