Я чрезвычайно взволнован потенциалом верности и интерпретируемости цепочки мыслей. Это существенно повлияло на дизайн наших моделей рассуждений, начиная с o1-preview. Поскольку системы искусственного интеллекта тратят все больше вычислительных ресурсов на работу, например, на долгосрочные исследовательские задачи, крайне важно, чтобы у нас был какой-то способ мониторинга их внутренних процессов. Замечательное свойство скрытых CoT заключается в том, что, хотя они изначально основаны на языке, который мы можем интерпретировать, масштабируемая процедура оптимизации не препятствует способности наблюдателя проверить замысел модели — в отличие, например, от прямого наблюдения с моделью вознаграждения. Напряжение здесь заключается в том, что если бы CoT не были скрыты по умолчанию, и мы рассматриваем этот процесс как часть результатов работы ИИ, то у нас есть много стимулов (а в некоторых случаях и необходимость) для того, чтобы установить контроль над ним. Я верю, что здесь мы можем работать над лучшим из обоих миров - тренировать наши модели, чтобы они отлично объясняли свои внутренние рассуждения, но в то же время сохраняли способность время от времени проверять их. Верность CoT является частью более широкого исследовательского направления, которое заключается в обучении интерпретируемости: постановке целей таким образом, чтобы по крайней мере часть системы обучалась оставаться честной и контролируемой с помощью масштаба. Мы продолжаем увеличивать наши инвестиции в эти исследования в OpenAI.