Tutti conoscono Flash Attention. Ma sai cos'è Flash GEMM? Questo codice calcola (A @ B) @ C su matrici NxN con N intermedi e senza ricalcolo. Se non utilizzi una libreria BLAS, non è necessario materializzare la matrice intermedia.
50,84K