Flash Attention作者新作:QuACK加速H100 GPU,无需CUDA代码

AI ToolBox
AI ToolBox
2025年7月11日

全新内核库 QuACK 横空出世

据最新消息,Flash Attention 的联合作者 Tri Dao 联手普林斯顿大学两位博士生,推出了一款名为 QuACK 的全新内核库。令人惊叹的是,该库完全采用 PythonCuTe-DSL 构建,未使用任何 CUDA C++ 代码。

图片

突破传统编程框架

这一创新不仅打破了传统的 GPU 编程模式,在强大的 H100 显卡上更是实现了比 PyTorch 中的 torch.compile 和 Liger 等主流库快 33%-50% 的性能提升。

细节决定效率

Tri Dao 强调,要使内存密集型内核达到高效率运作,并非什么"秘密",而是对关键细节的精准把控。 他指出,理解现代加速器的线程结构与内存层级至关重要。随着 GPU 性能优化不断深入,借助基于 Python 的 CuTe-DSL,开发者能够在更友好的开发环境中大幅提升执行效率。

业内专家高度评价

这项成果迅速引发了广泛关注。 英伟达 CUTLASS 团队资深架构师 Vijay 表示赞赏,并指出 CuTe-DSL 的设计使得专家能够轻松实现高效的 GPU 运行。 他还透露,今年将有更多相关技术发布。 PyTorch 团队成员 Horace He也表达了浓厚兴趣,尤其认可其在长序列处理上的优势。

开发者友好教程公开

为了让广大开发者更快上手,QuACK 的创建者们还撰写了一篇详尽的技术教程,展示了具体实现步骤和代码逻辑。

聚焦内存密集型优化

文章强调,要在 GPU 的训练与推理过程中实现高效运算,不仅要优化计算密集型内核,更要重视内存密集型内核的性能。 过去,矩阵乘法与注意力机制的优化已趋于成熟,而本次研究则将重点转向了此前较少被关注的内存密集型领域。

巧妙利用硬件特性

作者解释称,由于内存密集型内核的算术强度较低,吞吐量主要取决于每秒传输的数据量。 通过充分挖掘 GPU 的内存层级结构与硬件特性,他们成功将此类内核的性能提升至接近"光速"的水平。