Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Molte persone amano confrontare diverse classi di modelli come "ragionamento" o "non ragionamento", mentre in realtà ora sono tutti addestrati con una buona quantità delle stesse tecniche di apprendimento per rinforzo (e altre cose).
La visione corretta è vedere ogni rilascio di modello su uno spettro di sforzo di ragionamento. Molti dicono che Claude è un modello non ragionante, eppure sono stati tra i primi ad avere token speciali e un'interfaccia utente per "pensare profondamente, attendere" (ben prima della loro modalità di pensiero esteso). Lo stesso potrebbe valere per DeepSeek v3.1, che è stato rilasciato ma non è ancora facile da usare. Non abbiamo idea di quanti token per risposta vengano utilizzati nelle versioni chat di questi modelli per impostazione predefinita.
Le API con conteggi esatti dei token sono l'unica fonte di verità e dovrebbero essere comunicate molto più frequentemente.
Poi, all'interno dei modelli di ragionamento, c'è una grande variabilità nel numero di token utilizzati. Il prezzo dei modelli dovrebbe essere l'ultima considerazione dello sforzo, una combinazione del totale dei parametri attivi e del numero di token utilizzati. Ascoltando Dylan Patel nel podcast a16z, sembra che uno dei grandi successi di GPT-5 nella modalità di pensiero che adoro (simile a o3) sia stato ottenere risultati leggermente migliori con quasi il 50% di token in meno. L'ho percepito un po', è semplicemente più focalizzato sul compito rispetto a o3.
Un altro punto è che la seconda generazione di R1, R1-0528 ha migliorato i punteggi utilizzando molto più ragionamento. Qwen è stato simile. Questo non è sempre super prezioso per l'utente.
A livello tecnico, risolviamo questo riportando il numero di token utilizzati per modello nei risultati di valutazione (soprattutto rispetto ai pari). Il problema è che i lanci di AI sono ora abbastanza mainstream e si tratta di un dettaglio tecnico sfumato da comunicare.
Dal lato della ricerca, ad esempio, puoi aumentare significativamente i tuoi punteggi di valutazione valutando il tuo modello di ragionamento in un contesto più lungo rispetto ai tuoi pari.
Lo sforzo di ragionamento in token, e a volte nel prompt di sistema, è ora una variabile complessa ma non un semplice sì/no in tutti questi rilasci.
Di seguito c'è uno screenshot di un post che discuteva questo prima che o1 fosse rilasciato (12 settembre dell'anno scorso) e uno screenshot di un utente di reddit che ha scoperto il comportamento di pensiero di Claude.
Salvo questo sfogo per riferimento futuro perché ho bisogno di ripeterlo tutto il tempo.


25K
Principali
Ranking
Preferiti