Iedereen weet van Flash Attention. Maar weet je ook van Flash GEMM? Deze code berekent (A @ B) @ C op NxN-matrices met N tussenresultaten en zonder herberekening. Als je geen BLAS-bibliotheek gebruikt, hoef je de tussenliggende matrix niet te materialiseren.
50,85K