"太长时间以来,我们一直将模型的架构(网络结构)和优化算法(训练规则)视为两个独立的事物,这阻碍了我们实现真正统一、高效的学习系统。" 我们中的一些人已经这样做了十年..