这是我的学生@keshigeyan和合作者写的一篇非常酷的论文!😍
Keshigeyan Chandrasegaran
Keshigeyan Chandrasegaran2025年6月11日
1/ 模型架构大多被视为固定的训练后。 🌱 Grafting 简介:一种编辑预训练扩散变压器的新方法,使我们能够以较小的计算预算定制架构设计。 🌎 与@MichaelPoli6共同领导
1.16K