关于预测的笔记: 我认为在1小时及以上的时间框架中,你应该使用ridge,但当你到达1分钟/5分钟的时间框架时,通常会发现XGBoost表现更好。 5分钟的时间框架需要一些仔细的调优,但1分钟,尤其是秒级数据,你会开始看到XGBoost在你的信息系数(IC)上超出0.01-0.025,因为它是一个更好的模型。 XGBoost非常酷,因为你可以避免NaN值(这通常是回测中的一个问题,即不同数据集的可用性,某个提供者可能有10年的数据,而另一个只有2年)。 当然,你可以进行插补,但这并不是最现实的做法,并且在技术上存在前瞻性问题,因为你提前揭示了特征的均值/中位数。你也可以使用无前瞻性的均值,但仍然... 对于线性模型,如果你无法承受1小时及以上的拟合时间框架,并且想处理NaN值,你最好的选择是进行IC加权集成,并在出现NaN时重新计算权重(当你有每个特征的IC以及哪些特征在集合中时,确定权重并不算昂贵)。