私は、思考の連鎖、忠実さ、解釈可能性の可能性に非常に興奮しています。これは、o1-preview から始まる推論モデルの設計に大きな影響を与えました。 AIシステムは、長期的な研究問題などにより多くのコンピューティングを費やすため、その内部プロセスを監視する何らかの方法を持つことが重要です。隠れたCoTの素晴らしい特性は、私たちが解釈できる言語に基づいて開始される一方で、スケーラブルな最適化手順は、報酬モデルによる直接監視とは異なり、モデルの意図を検証するオブザーバーの能力に敵対的ではないことです。 ここでの緊張は、CoTがデフォルトで隠されておらず、そのプロセスをAIの出力の一部と見なす場合、それを監視する多くのインセンティブ(場合によっては必要性)があるということです。ここでは、モデルが内部推論をうまく説明できるようにトレーニングし、同時にそれを時折検証する能力を維持するという、両方の長所に向けて取り組むことができると信じています。 CoTの忠実さは、解釈可能性のトレーニングである、つまり、システムの少なくとも一部が正直で規模を保ち、監視可能な状態を保つようにトレーニングする方法で目標を設定する、より広範な研究の方向性の一部です。OpenAIでは、この研究への投資を増やし続けています。