關於預測的筆記: 我認為在1小時及以上的時間框架中,你應該使用ridge,但當你到達1分鐘/5分鐘的時間框架時,通常會發現XGBoost表現更好。 5分鐘的時間框架需要一些仔細的調優,但1分鐘,尤其是秒級數據,你會開始看到XGBoost在你的信息係數(IC)上超出0.01-0.025,因為它是一個更好的模型。 XGBoost非常酷,因為你可以避免NaN值(這通常是回測中的一個問題,即不同數據集的可用性,某個提供者可能有10年的數據,而另一個只有2年)。 當然,你可以進行插補,但這並不是最現實的做法,並且在技術上存在前瞻性問題,因為你提前揭示了特徵的均值/中位數。你也可以使用無前瞻性的均值,但仍然... 對於線性模型,如果你無法承受1小時及以上的擬合時間框架,並且想處理NaN值,你最好的選擇是進行IC加權集成,並在出現NaN時重新計算權重(當你有每個特徵的IC以及哪些特徵在集合中時,確定權重並不算昂貴)。