Bây giờ với việc hợp nhất vòng lặp và không tính toán lại. Nếu bạn có thể xây dựng một "trình biên dịch" mà từ đó sự chú ý flash chỉ đơn giản là xuất hiện, hãy tưởng tượng xem còn điều gì khác mà nó có thể hợp nhất.
Eitan Turok @ICML 2025
Eitan Turok @ICML 202504:34 4 thg 8
Tôi đã chú thích kernel flash attention của tinygrad để đảm bảo tôi hiểu nó. Việc tự động tạo ra điều này MỘT CÁCH CHUNG CHUNG thật tuyệt vời!
29,74K