Alle kjenner til Flash Attention. Men kjenner du til Flash GEMM? Denne koden beregner (A @ B) @ C på NxN-matriser med N-mellomprodukter og ingen omberegning. Hvis du ikke bruker et BLAS-bibliotek, trenger du ikke å materialisere den mellomliggende matrisen.
50,84K