"太長時間以來,我們一直將模型的架構(網絡結構)和優化算法(訓練規則)視為兩個獨立的事物,這使我們無法實現真正統一、高效的學習系統。" 我們中的一些人已經這樣做了十年..