Все знают о Flash Attention. Но знаете ли вы о Flash GEMM? Этот код вычисляет (A @ B) @ C для матриц NxN с N промежуточными значениями и без повторных вычислений. Если вы не используете библиотеку BLAS, вам не нужно материализовать промежуточную матрицу.
50,85K