Acest lucru îngroapă puțin lede, adică cu o schimbare minoră puteți face și ReLU(A @ B) @ C pe matrice NxN cu N intermediari și fără recalculare. (Aka: o rețea neuronală.)
the tiny corp
the tiny corp8 aug., 23:42
Everyone knows about Flash Attention. But do you know about Flash GEMM? This code computes (A @ B) @ C on NxN matrices with N intermediates and no recomputation. If you don't use a BLAS library, you don't need to materialize the intermediate matrix.
25,4K