Maintenant avec la fusion de boucles et sans recomputation. Si vous pouvez construire un "compilateur" dont l'attention flash découle simplement, imaginez ce qu'il pourrait encore fusionner.
Eitan Turok @ICML 2025
Eitan Turok @ICML 20254 août, 04:34
J'ai annoté le noyau d'attention flash tinygrad pour m'assurer que je le comprends. Générer cela de manière GÉNÉRIQUE est plutôt cool !
29,73K