Misurare l'Efficienza del Pensiero nei Modelli di Ragionamento: Il Benchmark Mancante Abbiamo misurato l'uso dei token nei modelli di ragionamento: i modelli aperti producono da 1,5 a 4 volte più token rispetto ai modelli chiusi su compiti identici, ma con una grande variabilità a seconda del tipo di compito (fino a 10 volte su domande semplici). Questo costo nascosto spesso annulla i vantaggi dei prezzi per token. L'efficienza dei token dovrebbe diventare un obiettivo primario insieme ai benchmark di accuratezza, specialmente considerando i casi d'uso non legati al ragionamento. Leggi la recensione approfondita dell'efficienza del ragionamento attraverso il panorama dei modelli aperti e chiusi nel nostro ultimo post sul blog in collaborazione con il nostro ricercatore residente, Tim. Scopri di più sul loro lavoro qui:
19,39K