1/ 模型架构大多被视为固定的训练后。 🌱 Grafting 简介:一种编辑预训练扩散变压器的新方法,使我们能够以较小的计算预算定制架构设计。 🌎 与@MichaelPoli6共同领导
29.23K