Nu met loopfusie en zonder herberekening. Als je een "compiler" kunt bouwen waaruit flash attention gewoon voortkomt, stel je dan voor wat er nog meer gefuseerd kan worden.
Eitan Turok @ICML 2025
Eitan Turok @ICML 20254 aug, 04:34
Ik heb de tinygrad flash attention kernel geannoteerd om er zeker van te zijn dat ik het begrijp. automatisch dit GENERIEK genereren is best cool!
29,74K