Ora con la fusione dei loop e senza ricalcolo. Se puoi costruire un "compilatore" da cui l'attenzione flash semplicemente emerge, immagina cos'altro potrebbe fondere.
Eitan Turok @ICML 2025
Eitan Turok @ICML 20254 ago, 04:34
Ho annotato il kernel di flash attention di tinygrad per assicurarmi di capirlo. Generare questo in modo GENERICO è davvero interessante!
29,72K