Tämä hautaa hieman ledeä, mikä on se, että pienellä muutoksella voit tehdä myös ReLU(A @ B) @ C NxN-matriiseilla, joissa on N välimuotoa ja ilman uudelleenlaskentaa. (Alias: hermoverkko.)
the tiny corp
the tiny corp8.8. klo 23.42
Everyone knows about Flash Attention. But do you know about Flash GEMM? This code computes (A @ B) @ C on NxN matrices with N intermediates and no recomputation. If you don't use a BLAS library, you don't need to materialize the intermediate matrix.
25,39K