语法仍然有点笨拙,但很快 LLM 层、梯度累积和训练循环将不再使用 Python 的 for 循环来编写。 借用 Halide 的话:"将规范与编译和调度细节分开",只不过我们将规范整个 1 亿美元的训练过程。
17.91K