Dette er å begrave ledet litt, som er at med en mindre endring kan du også gjøre ReLU(A @ B) @ C på NxN-matriser med N-mellomprodukter og ingen omberegning. (aka: et nevralt nettverk.)
the tiny corp
the tiny corp8. aug., 23:42
Everyone knows about Flash Attention. But do you know about Flash GEMM? This code computes (A @ B) @ C on NxN matrices with N intermediates and no recomputation. If you don't use a BLAS library, you don't need to materialize the intermediate matrix.
25,38K