Je suis extrêmement enthousiaste à propos du potentiel de la fidélité et de l’interprétabilité de la chaîne de pensée. Il a considérablement influencé la conception de nos modèles de raisonnement, à commencer par o1-preview. Comme les systèmes d’IA consacrent plus de calcul à des problèmes de recherche à long terme, il est essentiel que nous disposions d’un moyen de surveiller leur processus interne. La merveilleuse propriété des CoT cachés est que, bien qu’ils soient initialement fondés sur un langage que nous pouvons interpréter, la procédure d’optimisation évolutive n’est pas antagoniste à la capacité de l’observateur à vérifier l’intention du modèle - contrairement par exemple à la supervision directe avec un modèle de récompense. La tension ici est que si les CoTs n’ont pas été cachés par défaut, et que nous considérons le processus comme faisant partie de la production de l’IA, il y a beaucoup d’incitation (et dans certains cas, de nécessité) à y mettre une supervision. Je crois que nous pouvons travailler vers le meilleur des deux mondes ici - entraîner nos modèles à être excellents pour expliquer leur raisonnement interne, tout en conservant la capacité de le vérifier de temps en temps. La fidélité CoT fait partie d’une direction de recherche plus large, qui est l’entraînement à l’interprétabilité : fixer des objectifs de manière à former au moins une partie du système à rester honnête et contrôlable à grande échelle. Nous continuons d’augmenter notre investissement dans cette recherche chez OpenAI.