"Durante demasiado tiempo, hemos tratado la arquitectura del modelo (la estructura de red) y el algoritmo de optimización (la regla de entrenamiento) como dos cosas separadas, lo que nos impide lograr un sistema de aprendizaje verdaderamente unificado y eficiente". algunos de nosotros hemos estado haciendo esto durante una década..