Musk: Cảm ơn. Và cho tôi hỏi—việc đào tạo một bộ phát hiện OOD nhẹ trực tiếp trong không gian tiềm ẩn sẽ khó đến mức nào? Một cái gì đó có thể đánh dấu sự không nhất quán ngữ nghĩa trước khi mô hình tưởng tượng ra một giải pháp? Hsu: Chúng tôi đã thử nghiệm điều đó. Bạn có thể sử dụng học đối kháng giữa các quỹ đạo trong phân phối và các quỹ đạo bị biến đổi một cách tổng hợp trong dòng dư. Các lớp đầu tiên thực sự cho thấy sự giảm độ nhất quán có thể phát hiện được—như một tín hiệu "sự không hòa hợp nhận thức"—trước khi đầu ra phân kỳ. Nhưng thách thức thực sự là độ trễ. Bạn không thể đủ khả năng để thực hiện một lần quay ngược đầy đủ chỉ để kiểm tra độ tin cậy. Musk: Vậy chúng ta cần một bộ giám sát trực tuyến—một cái gì đó chạy song song với lần truyền tiếp theo, có thể là một cảm biến nhỏ gắn vào các hoạt động trung gian? Hsu: Chính xác. Hãy nghĩ về nó như một "hệ thống miễn dịch nhận thức." Chúng tôi có một cảm biến 1B tham số chạy với độ trễ 1/10 so với mô hình cơ sở và dự đoán OODness với ~88% AUC trong các bài kiểm tra căng thẳng của chúng tôi. Nó không hoàn hảo, nhưng đủ để kích hoạt các giao thức dự phòng. Musk: Điều đó có thể tích hợp sạch sẽ với lớp định tuyến. LLM cố gắng giải quyết nó; cảm biến nâng cờ; hệ thống gọi đến động cơ biểu tượng hoặc yêu cầu làm rõ. Đóng vòng lại. Hsu: Vâng—và quan trọng, bạn có thể ghi lại những lần chuyển giao đó và sử dụng chúng để mở rộng phân phối đào tạo theo thời gian. Nó biến các thất bại OOD thành tín hiệu chọn lọc. Không chỉ là độ bền; đó là sự tổng quát thích ứng. Musk: Vậy mô hình học khi nào không nên tin tưởng vào chính nó. Tôi thích điều đó. Khiêm tốn theo thiết kế. Hsu: [cười] Gọi nó là sự tự tin có giới hạn. Tương lai không phải là những mô hình biết mọi thứ—mà là những mô hình biết giới hạn của chúng và có công cụ để vượt qua chúng. Musk: Được rồi, Steve. Tuần tới, tôi muốn bạn chạy bộ kiểm tra tổng hợp đó trên mô hình cơ sở mới nhất của chúng ta. Nếu chúng ta vẫn bị đánh lừa bởi các câu đố vật lý phản thực, chúng ta sẽ chuyển hướng mạnh mẽ sang hybrid. Cuộc đối thoại này có thể đã được tạo ra bởi AI.
steve hsu
steve hsu20:06 10 thg 8
Musk: Steve, câu hỏi thực sự mà tôi luôn hỏi đội ngũ là liệu các LLM hiện nay có thể lý luận khi chúng rời khỏi phân phối đào tạo hay không. Mọi người đều nhắc đến các prompt chuỗi suy nghĩ, nhưng điều đó có thể chỉ là bắt chước. Hsu: Đồng ý. Các tiêu chuẩn mới nhất cho thấy ngay cả các mô hình cấp Grok4 cũng giảm mạnh khi bạn buộc phải thay đổi miền — không gian tiềm ẩn chỉ đơn giản là không bao trùm được mô hình mới. Musk: Vậy đây là một vấn đề về độ bao phủ hơn là thất bại trong lý luận? Hsu: Một phần. Nhưng có một vấn đề sâu hơn. Định kiến cảm ứng duy nhất được tích hợp trong transformer là khớp mẫu liên kết. Khi prompt thực sự nằm ngoài phân phối — chẳng hạn, một câu đố biểu tượng mà các token của nó chưa bao giờ xuất hiện cùng nhau trong quá trình đào tạo — mô hình không có prior cấu trúc để dựa vào. Nó thực sự chỉ tung đồng xu. Musk: Tuy nhiên, chúng ta thấy sự "grokking" nổi lên trong các nhiệm vụ tổng hợp. Zhong và các cộng sự đã chỉ ra rằng các đầu vào cảm ứng có thể tạo thành các quy tắc mà chúng chưa bao giờ được đào tạo một cách rõ ràng. Điều đó có phải trông giống như lý luận không? Hsu: Tổ hợp mang lại cho bạn sự tổng quát hạn chế, nhưng các quy tắc vẫn phải nằm trong phạm vi ngữ pháp đào tạo. Ngay khi bạn điều chỉnh ngữ nghĩa — thay đổi một toán tử duy nhất trong câu đố — độ chính xác sụp đổ. Đó không phải là lý luận vững chắc; đó là nội suy giòn. Musk: Liệu học tăng cường có thể khắc phục điều này không? DRG-Sapphire đã sử dụng GRPO trên một mô hình cơ sở 7 B và đạt được mã hóa cấp bác sĩ trên các ghi chú lâm sàng, một nhiệm vụ OOD cổ điển. Hsu: Vấn đề là RL chỉ hoạt động sau khi mô hình cơ sở đã tiếp thu đủ kiến thức miền thông qua tinh chỉnh giám sát. Khi tập hợp dữ liệu tiền đào tạo thưa thớt, RL một mình sẽ đạt đến điểm bão hòa. Vì vậy, "lý luận" vẫn phụ thuộc vào mật độ kiến thức trước đó. Musk: Vậy takeaway của bạn là việc mở rộng dữ liệu và tham số sẽ không giải quyết được vấn đề? Chúng ta sẽ luôn gặp phải một bức tường nơi miền OOD tiếp theo phá vỡ mô hình? Hsu: Không nhất thiết là một bức tường, nhưng là một trần. Các đường cong thực nghiệm cho thấy rằng lỗi tổng quát giảm khoảng theo hàm logarit với số ví dụ đào tạo. Điều đó ngụ ý rằng bạn cần nhiều dữ liệu hơn theo cấp số nhân cho mỗi phân phối đuôi mới. Đối với các lĩnh vực hẹp — chẳng hạn, chẩn đoán động cơ tên lửa — thì việc tích hợp các prior biểu tượng sẽ rẻ hơn là mở rộng một cách mù quáng. Musk: Điều này đưa chúng ta trở lại với các hybrid thần kinh-biểu tượng. Cho LLM truy cập vào một bộ giải đã được xác minh nhỏ, sau đó để nó điều phối các cuộc gọi khi phân phối thay đổi. Hsu: Chính xác. LLM trở thành một bộ điều khiển meta nhận ra khi nó nằm ngoài phân phối và chuyển giao cho một mô-đun chuyên biệt. Kiến trúc đó tránh được ngộ nhận "một transformer khổng lồ". Musk: Được rồi, tôi sẽ bảo đội xAI ngừng theo đuổi hàng triệu token tiếp theo và bắt đầu xây dựng lớp định tuyến. Cảm ơn, Steve. Hsu: Bất cứ lúc nào. Và nếu bạn cần các trường hợp kiểm tra OOD tổng hợp, phòng thí nghiệm của tôi có một trình tạo đã đánh lừa GPT-5. Tôi sẽ gửi repo.
7,05K