Điều này có phần làm lạc đề một chút, đó là với một thay đổi nhỏ, bạn cũng có thể thực hiện ReLU(A @ B) @ C trên các ma trận NxN với N trung gian và không cần tính toán lại. (được gọi là: một mạng nơ-ron.)
the tiny corp
the tiny corp23:42 8 thg 8
Mọi người đều biết về Flash Attention. Nhưng bạn có biết về Flash GEMM không? Mã này tính toán (A @ B) @ C trên các ma trận NxN với N ma trận trung gian và không cần tính lại. Nếu bạn không sử dụng thư viện BLAS, bạn không cần phải tạo ra ma trận trung gian.
25,39K