C'est un peu enterrer le lede, ce qui est qu'avec un changement mineur, vous pouvez également faire ReLU(A @ B) @ C sur des matrices NxN avec N intermédiaires et sans recomputation. (aka : un réseau de neurones.)
the tiny corp
the tiny corp8 août, 23:42
Everyone knows about Flash Attention. But do you know about Flash GEMM? This code computes (A @ B) @ C on NxN matrices with N intermediates and no recomputation. If you don't use a BLAS library, you don't need to materialize the intermediate matrix.
25,39K