Das ist ein wenig das Wesentliche zu verbergen, nämlich dass man mit einer kleinen Änderung auch ReLU(A @ B) @ C auf NxN-Matrizen mit N Zwischenwerten und ohne Neuberechnung durchführen kann. (auch bekannt als: ein neuronales Netzwerk.)
the tiny corp
the tiny corp8. Aug., 23:42
Jeder kennt Flash Attention. Aber weißt du auch über Flash GEMM Bescheid? Dieser Code berechnet (A @ B) @ C auf NxN-Matrizen mit N Zwischenwerten und ohne Neuberechnung. Wenn du keine BLAS-Bibliothek verwendest, musst du die Zwischenmatrix nicht materialisieren.
25,39K