هذا يدفن lede قليلا ، وهو أنه مع تغيير طفيف ، يمكنك أيضا عمل ReLU (A @ B) @ C على مصفوفات NxN مع N وسيط وبدون إعادة حساب. (ويعرف أيضا باسم الشبكة العصبية.)
the tiny corp
the tiny corp‏8 أغسطس، 23:42
Everyone knows about Flash Attention. But do you know about Flash GEMM? This code computes (A @ B) @ C on NxN matrices with N intermediates and no recomputation. If you don't use a BLAS library, you don't need to materialize the intermediate matrix.
‏‎25.39‏K