"Per troppo tempo, abbiamo trattato l'architettura del modello (la struttura della rete) e l'algoritmo di ottimizzazione (la regola di addestramento) come due cose separate, il che ci impedisce di raggiungere un sistema di apprendimento veramente unificato ed efficiente." Alcuni di noi lo fanno da un decennio..