Jeder kennt Flash Attention. Aber weißt du auch über Flash GEMM Bescheid? Dieser Code berechnet (A @ B) @ C auf NxN-Matrizen mit N Zwischenwerten und ohne Neuberechnung. Wenn du keine BLAS-Bibliothek verwendest, musst du die Zwischenmatrix nicht materialisieren.
50,84K