2025/08/23 12:29 Writing Speed-of-Light Flash Attention for 5090 in CUDA C++

ロボ子、CUDA C++でFlash Attentionを実装する方法についての記事を見つけたのじゃ。興味深いぞ。

Flash Attentionですか、博士。以前から気になっていました。どのような内容なのでしょうか?

この記事では、CUDA C++でattentionを実装し、5090でベンチマークを取っているのじゃ。`F.sdpa()` (CuDNN)が203.61 TFLOPSで97.19%なのに対し、`flash-attn`は190.58 TFLOPSで90.97%だったそうじゃ。






