Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tôi vô cùng hào hứng về tiềm năng của sự trung thực và khả năng diễn giải của chuỗi tư tưởng. Nó đã ảnh hưởng đáng kể đến thiết kế của các mô hình suy luận của chúng tôi, bắt đầu với o1-preview.
Khi các hệ thống AI dành nhiều công việc điện toán hơn, ví dụ như cho các vấn đề nghiên cứu dài hạn, điều quan trọng là chúng ta phải có một số cách để giám sát quá trình nội bộ của chúng. Thuộc tính tuyệt vời của CoT ẩn là trong khi chúng bắt đầu dựa trên ngôn ngữ mà chúng ta có thể diễn giải, quy trình tối ưu hóa có thể mở rộng không đối nghịch với khả năng của người quan sát để xác minh ý định của mô hình - không giống như giám sát trực tiếp với mô hình phần thưởng.
Căng thẳng ở đây là nếu CoT không bị ẩn theo mặc định và chúng tôi xem quá trình này là một phần của đầu ra của AI, thì có rất nhiều động lực (và trong một số trường hợp, cần thiết) để giám sát nó. Tôi tin rằng chúng ta có thể làm việc hướng tới những điều tốt nhất của cả hai thế giới ở đây - đào tạo các mô hình của chúng ta để giải thích lý luận bên trong của chúng một cách giỏi, nhưng đồng thời vẫn giữ được khả năng thỉnh thoảng xác minh nó.
Sự trung thành của CoT là một phần của định hướng nghiên cứu rộng lớn hơn, đó là đào tạo khả năng diễn giải: thiết lập các mục tiêu theo cách đào tạo ít nhất một phần của hệ thống để duy trì sự trung thực và có thể giám sát được với quy mô. Chúng tôi đang tiếp tục tăng cường đầu tư vào nghiên cứu này tại OpenAI.
Hàng đầu
Thứ hạng
Yêu thích