Note sulle previsioni: Penso che per le barre di 1 ora e superiori dovresti usare ridge, ma quando arrivi a barre di 1 minuto/5 minuti di solito scopri che XGBoost vince. I 5 minuti necessitano di un po' di messa a punto, ma a 1 minuto e soprattutto a secondi inizi a vedere XGBoost dominare con un extra di 0.01-0.025 sul tuo IC semplicemente perché è un modello migliore. XGBoost è piuttosto interessante perché puoi evitare valori NaN (che è spesso un problema per i backtest, cioè diverse disponibilità di dataset per i lookback, un fornitore potrebbe avere 10 anni, un altro 2). Puoi, ovviamente, imputare, ma non è il modo più realistico di fare le cose e tecnicamente ha un lookahead poiché riveli la media/mediana della caratteristica in anticipo. Puoi usare anche una media senza lookahead, ma comunque... Per le cose lineari dove non puoi permetterti di adattare il timeframe di 1 ora e superiore, E dove vuoi gestire i NaN, la tua migliore scommessa è fare un ensemble pesato IC e ricalcolare i pesi ogni volta che ci sono NaN (non è esattamente costoso capire quale peso dovrebbe essere cosa quando hai l'IC di ciascuna caratteristica e quali caratteristiche sono nel set).