Olen erittäin innoissani ajatusketjun uskollisuuden ja tulkittavuuden mahdollisuuksista. Se on vaikuttanut merkittävästi päättelymalliemme suunnitteluun, alkaen o1-esikatselusta. Koska tekoälyjärjestelmät käyttävät enemmän laskentaa esimerkiksi pitkän aikavälin tutkimusongelmien ratkaisemiseen, on tärkeää, että meillä on jokin tapa valvoa niiden sisäistä prosessia. Piilotettujen CoT:ien hieno ominaisuus on, että vaikka ne perustuvat tulkittavaan kieleen, skaalautuva optimointimenettely ei ole haitallista tarkkailijan kyvylle varmistaa mallin tarkoitus - toisin kuin esimerkiksi suora valvonta palkitsemismallilla. Jännite tässä on siinä, että jos CoT:t eivät ole oletusarvoisesti piilossa ja pidämme prosessia osana tekoälyn tuotosta, on paljon kannustimia (ja joissain tapauksissa välttämättömyyttä) valvoa sitä. Uskon, että voimme työskennellä molempien maailmojen parhaiden puolien eteen - kouluttaa mallimme selittämään hyvin sisäistä päättelyään, mutta samalla säilyttää kyky toisinaan todentaa se. CoT:n uskollisuus on osa laajempaa tutkimussuuntaa, joka on tulkittavuuden koulutus: tavoitteiden asettaminen tavalla, joka kouluttaa ainakin osan järjestelmästä pysymään rehellisenä ja mittakaavassa valvottavana. Jatkamme panostustemme lisäämistä tähän tutkimukseen OpenAI:ssa.