Dit is een beetje de kern van de zaak verbergen, namelijk dat je met een kleine wijziging ook ReLU(A @ B) @ C kunt doen op NxN-matrices met N tussenstappen en zonder herberekening. (ook wel: een neuraal netwerk.)
the tiny corp
the tiny corp8 aug, 23:42
Everyone knows about Flash Attention. But do you know about Flash GEMM? This code computes (A @ B) @ C on NxN matrices with N intermediates and no recomputation. If you don't use a BLAS library, you don't need to materialize the intermediate matrix.
25,4K