Hinweise zur Prognose: Ich denke, bei 1h-Bars und darüber hinaus solltest du Ridge verwenden, aber wenn du zu 1-Minuten/5-Minuten-Bars kommst, stellst du normalerweise fest, dass XGBoost gewinnt. 5 Minuten benötigen ein wenig sorgfältige Feinabstimmung, aber bei 1 Minute und insbesondere bei Sekunden siehst du, dass XGBoost um zusätzliche 0,01-0,025 bei deinem IC dominiert, nur weil es ein besseres Modell ist. XGBoost ist ziemlich cool, weil du NaN-Werte vermeiden kannst (was oft ein Problem für Backtests ist, d.h. unterschiedliche Datenverfügbarkeiten für Rückblicke, ein Anbieter könnte 10 Jahre haben, ein anderer 2). Du kannst natürlich imputieren, aber das ist nicht der realistischste Weg, um Dinge zu tun, und hat technisch gesehen einen Lookahead, da du den Mittelwert/Median des Merkmals im Voraus offenlegst. Du kannst auch einen lookahead-freien Mittelwert verwenden, aber trotzdem... Für lineare Dinge, bei denen du dir die Anpassung des 1h-Zeitrahmens und höher nicht leisten kannst, UND wo du mit NaNs umgehen möchtest, ist dein bester Ansatz, ein IC-gewichtetes Ensemble zu machen und die Gewichte neu zu berechnen, wann immer es NaNs gibt (es ist nicht gerade teuer herauszufinden, welches Gewicht was sein sollte, wenn du die ICs jedes Merkmals und welche Merkmale im Set sind, hast).