Nuovo post sul blog sull'asimmetria della verifica e la "legge del verificatore": L'asimmetria della verifica – l'idea che alcuni compiti siano molto più facili da verificare che da risolvere – sta diventando un'idea importante poiché abbiamo la RL che finalmente funziona in generale. Ottimi esempi di asimmetria di verifica sono cose come i puzzle di sudoku, la scrittura del codice per un sito Web come instagram e i problemi di BrowseComp (ci vogliono ~100 siti Web per trovare la risposta, ma è facile da verificare una volta che hai la risposta). Altre attività hanno una simmetria di verifica quasi simmetrica, come la somma di due numeri di 900 cifre o alcuni script di elaborazione dati. Tuttavia, per altri compiti è molto più facile proporre soluzioni fattibili piuttosto che verificarle (ad esempio, verificare i fatti di un lungo saggio o affermare una nuova dieta come "mangia solo bisonti"). Una cosa importante da capire sull'asimmetria di verifica è che è possibile migliorare l'asimmetria facendo un po' di lavoro in anticipo. Ad esempio, se si dispone della chiave di risposta per un problema di matematica o se si dispone di casi di test per un problema Leetcode. Ciò aumenta notevolmente l'insieme di problemi con l'asimmetria di verifica desiderabile. La "legge del verificatore" afferma che la facilità di addestramento dell'IA per risolvere un compito è proporzionale alla verificabilità del compito. Tutte le attività che è possibile risolvere e facili da verificare saranno risolte dall'intelligenza artificiale. La capacità di addestrare l'intelligenza artificiale a risolvere un'attività è proporzionale al fatto che l'attività abbia le seguenti proprietà: 1. Verità oggettiva: tutti sono d'accordo su quali siano le buone soluzioni 2. Veloce da verificare: qualsiasi soluzione può essere verificata in pochi secondi 3. Scalabile da verificare: molte soluzioni possono essere verificate contemporaneamente 4. Bassa rumorosità: la verifica è il più strettamente correlata possibile alla qualità della soluzione 5. Ricompensa continua: è facile classificare la bontà di molte soluzioni per un singolo problema Un'ovvia istanza della legge del verificatore è il fatto che la maggior parte dei parametri di riferimento proposti nell'IA sono facili da verificare e finora sono stati risolti. Si noti che praticamente tutti i benchmark popolari negli ultimi dieci anni soddisfano i criteri #1-4; I benchmark che non soddisfano i criteri #1-4 farebbero fatica a diventare popolari. Perché la verificabilità è così importante? La quantità di apprendimento nell'IA che si verifica è massimizzata quando i criteri di cui sopra sono soddisfatti; Puoi fare molti passaggi di gradiente in cui ogni passo ha molto segnale. La velocità di iterazione è fondamentale: è il motivo per cui il progresso nel mondo digitale è stato molto più veloce del progresso nel mondo fisico. AlphaEvolve di Google è uno dei più grandi esempi di sfruttamento dell'asimmetria di verifica. Si concentra su configurazioni che soddisfano tutti i criteri di cui sopra e ha portato a una serie di progressi in matematica e in altri campi. A differenza di ciò che abbiamo fatto nell'intelligenza artificiale negli ultimi due decenni, si tratta di un nuovo paradigma in cui tutti i problemi sono ottimizzati in un ambiente in cui il set di treni è equivalente al set di test. L'asimmetria della verifica è ovunque ed è eccitante considerare un mondo di intelligenza frastagliata in cui tutto ciò che possiamo misurare sarà risolto.
299,19K