Sono estremamente entusiasta del potenziale della fedeltà e dell'interpretabilità della catena di pensiero. Ha influenzato in modo significativo la progettazione dei nostri modelli di ragionamento, a partire da o1-preview. Poiché i sistemi di intelligenza artificiale spendono più calcolo lavorando, ad esempio, su problemi di ricerca a lungo termine, è fondamentale avere un modo per monitorare il loro processo interno. La meravigliosa proprietà dei CoT nascosti è che, sebbene inizino con un linguaggio che possiamo interpretare, la procedura di ottimizzazione scalabile non è in contrasto con la capacità dell'osservatore di verificare l'intento del modello, a differenza ad esempio della supervisione diretta con un modello di ricompensa. La tensione qui è che se i CoT non sono stati nascosti per impostazione predefinita, e consideriamo il processo come parte dell'output dell'IA, c'è un sacco di incentivo (e in alcuni casi, la necessità) di mettere una supervisione su di esso. Credo che qui possiamo lavorare per ottenere il meglio da entrambi i mondi: addestrare i nostri modelli a spiegare il loro ragionamento interno, ma allo stesso tempo mantenere la capacità di verificarlo occasionalmente. La fedeltà al CoT fa parte di una più ampia direzione di ricerca, che è la formazione all'interpretabilità: fissare gli obiettivi in modo da formare almeno una parte del sistema a rimanere onesto e monitorabile con la scala. Stiamo continuando ad aumentare il nostro investimento in questa ricerca in OpenAI.