Jestem niezwykle podekscytowany potencjałem, jaki niesie ze sobą wierność i interpretowalność łańcucha myśli. Znacząco wpłynęło to na projektowanie naszych modeli rozumowania, zaczynając od o1-preview. Ponieważ systemy sztucznej inteligencji zużywają więcej mocy obliczeniowej, pracując np. nad długoterminowymi problemami badawczymi, niezwykle ważne jest, abyśmy mieli jakiś sposób monitorowania ich wewnętrznego procesu. Wspaniałą właściwością ukrytych CoT jest to, że chociaż na początku opierają się na języku, który możemy zinterpretować, skalowalna procedura optymalizacji nie jest przeciwstawna zdolności obserwatora do zweryfikowania intencji modelu - w przeciwieństwie np. do bezpośredniego nadzoru za pomocą modelu nagrody. Napięcie polega na tym, że jeśli CoT nie są domyślnie ukryte i postrzegamy ten proces jako część wyników sztucznej inteligencji, istnieje duża zachęta (a w niektórych przypadkach konieczność) do nałożenia na niego nadzoru. Wierzę, że możemy tutaj pracować nad tym, co najlepsze z obu światów - trenować nasze modele, aby były świetne w wyjaśnianiu swojego wewnętrznego rozumowania, ale jednocześnie nadal zachowywały zdolność do jego okazjonalnej weryfikacji. Wierność CoT jest częścią szerszego kierunku badań, którym jest szkolenie w zakresie interpretowalności: wyznaczanie celów w sposób, który szkoli przynajmniej część systemu, aby pozostała uczciwa i możliwa do monitorowania na dużą skalę. W OpenAI nadal zwiększamy nasze inwestycje w te badania.