覆盖原则:预训练如何促进后续训练 新的预印本,我们研究了下一个标记预测如何产生在下游任务中成功的模型的机制。 答案涉及一个我们称之为“覆盖轮廓”的指标,而不是交叉熵。