Todos sabem sobre o Flash Attention. Mas você conhece o Flash GEMM? Este código calcula (A @ B) @ C em matrizes NxN com N intermediários e sem recomputação. Se você não usar uma biblioteca BLAS, não precisa materializar a matriz intermediária.
50,84K