這是我的學生@keshigeyan和合作者寫的一篇非常酷的論文!😍
Keshigeyan Chandrasegaran
Keshigeyan Chandrasegaran2025年6月11日
1/ 模型架構大多被視為固定的訓練後。 🌱 Grafting 簡介:一種編輯預訓練擴散變壓器的新方法,使我們能夠以較小的計算預算自訂架構設計。 🌎 與@MichaelPoli6共同領導
1.16K