Aantekeningen over voorspellingen: Ik denk dat je bij 1u-balken en hoger ridge moet gebruiken, maar wanneer je bij 1min/5min-balken komt, zie je meestal dat XGBoost wint. 5 minuten vereist een beetje zorgvuldige afstemming, maar bij 1 minuut en vooral seconden begin je te zien dat XGBoost domineert met een extra 0.01-0.025 op je IC, puur omdat het een beter model is. XGBoost is best cool omdat je NaN-waarden kunt vermijden (wat vaak een probleem is voor backtests, d.w.z. verschillende datasetbeschikbaarheid voor terugblikken, de ene aanbieder heeft misschien 10 jaar, de andere 2). Je kunt natuurlijk imputeren, maar dat is niet de meest realistische manier om dingen te doen en technisch gezien heeft het lookahead omdat je de gemiddelde/mediaan van de functie van tevoren onthult. Je kunt ook een lookahead-vrije gemiddelde gebruiken, maar toch... Voor lineaire zaken waar je de fitting van 1u-tijdframe en hoger niet kunt veroorloven EN waar je met NaNs wilt omgaan, is je beste kans om een IC-gewogen ensemble te doen en de gewichten opnieuw te berekenen telkens er NaNs zijn (het is niet echt duur om uit te zoeken wat het gewicht zou moeten zijn wanneer je de IC van elke functie hebt en welke functies in de set zitten).