Nguyên tắc bao phủ: Cách mà việc huấn luyện trước giúp ích cho việc huấn luyện sau
Bài viết mới nơi chúng tôi xem xét các cơ chế mà qua đó dự đoán token tiếp theo tạo ra các mô hình thành công trong các nhiệm vụ hạ nguồn.
Câu trả lời liên quan đến một chỉ số mà chúng tôi gọi là "hồ sơ bao phủ", không phải là entropy chéo.