Todo el mundo conoce Flash Attention. Pero, ¿conoces Flash GEMM? Este código calcula (A @ B) @ C en matrices NxN con N intermedios y sin recomputación. Si no usas una biblioteca BLAS, no necesitas materializar la matriz intermedia.
50,85K