覆蓋原則:預訓練如何促進後訓練 新的預印本,我們探討了下一個標記預測如何產生在下游任務中成功的模型的機制。 答案涉及一個我們稱之為「覆蓋輪廓」的指標,而不是交叉熵。