Isto está a enterrar um pouco o ponto principal, que é que com uma pequena alteração também pode fazer ReLU(A @ B) @ C em matrizes NxN com N intermediários e sem recomputação. (ou seja: uma rede neural.)
the tiny corp
the tiny corp8/08, 23:42
Todos sabem sobre o Flash Attention. Mas você conhece o Flash GEMM? Este código calcula (A @ B) @ C em matrizes NxN com N intermediários e sem recomputação. Se você não usar uma biblioteca BLAS, não precisa materializar a matriz intermediária.
25,4K