Всі знають про Flash Attention. А чи знаєте ви про Flash GEMM? Цей код обчислює (A @ B) @ C на NxN матрицях з N проміжними продуктами і без повторного обчислення. Якщо ви не використовуєте бібліотеку BLAS, вам не потрібно матеріалізувати проміжну матрицю.
50,84K