我對思維鏈、忠實性和可解釋性的潛力感到非常興奮。它極大地影響了我們推理模型的設計,從 o1-preview 開始。 隨著人工智慧系統花費更多的運算工作,例如在長期研究問題上,我們必須有某種方法來監控其內部流程。隱藏 CoT 的奇妙特性在於,雖然它們以我們可以解釋的語言為基礎,但可擴展的最佳化過程並不不利於觀察者驗證模型意圖的能力 - 這與獎勵模型的直接監督不同。 這裡的緊張關係在於,如果 CoT 默認情況下沒有隱藏,並且我們將該過程視為 AI 輸出的一部分,那麼就有很大的動力(在某些情況下,有必要)對其進行監督。我相信我們可以在這裡努力實現兩全其美——訓練我們的模型能夠很好地解釋其內部推理,但同時仍然保留偶爾驗證它的能力。 CoT 忠實度是更廣泛的研究方向的一部分,該方向是可解釋性訓練:以一種訓練系統至少部分保持誠實和可監控的方式設定目標。我們將繼續增加對 OpenAI 這項研究的投資。