"Por muito tempo, tratamos a arquitetura do modelo (a estrutura da rede) e o algoritmo de otimização (a regra de treinamento) como duas coisas separadas, o que nos impede de alcançar um sistema de aprendizado verdadeiramente unificado e eficiente." alguns de nós temos feito isso há uma década..