每个人都知道 Flash Attention。但你知道 Flash GEMM 吗? 这段代码在 NxN 矩阵上计算 (A @ B) @ C,使用 N 个中间值且不进行重新计算。如果你不使用 BLAS 库,就不需要生成中间矩阵。
50.84K