Semua orang tahu tentang Flash Attention. Tapi apakah Anda tahu tentang Flash GEMM? Kode ini menghitung (A @ B) @ C pada matriks NxN dengan N perantara dan tanpa perhitungan ulang. Jika Anda tidak menggunakan pustaka BLAS, Anda tidak perlu mewujudkan matriks perantara.
50,84K