AI 在线工具 | 最新人工智能新闻与工具

全新内核库 QuACK 横空出世

据最新消息，Flash Attention 的联合作者 Tri Dao 联手普林斯顿大学两位博士生，推出了一款名为 QuACK 的全新内核库。令人惊叹的是，该库完全采用 Python 与 CuTe-DSL 构建，未使用任何 CUDA C++ 代码。

突破传统编程框架

这一创新不仅打破了传统的 GPU 编程模式，在强大的 H100 显卡上更是实现了比 PyTorch 中的 torch.compile 和 Liger 等主流库快 33%-50% 的性能提升。

细节决定效率

Tri Dao 强调，要使内存密集型内核达到高效率运作，并非什么"秘密"，而是对关键细节的精准把控。他指出，理解现代加速器的线程结构与内存层级至关重要。随着 GPU 性能优化不断深入，借助基于 Python 的 CuTe-DSL，开发者能够在更友好的开发环境中大幅提升执行效率。

业内专家高度评价

这项成果迅速引发了广泛关注。英伟达 CUTLASS 团队资深架构师 Vijay 表示赞赏，并指出 CuTe-DSL 的设计使得专家能够轻松实现高效的 GPU 运行。他还透露，今年将有更多相关技术发布。 PyTorch 团队成员 Horace He也表达了浓厚兴趣，尤其认可其在长序列处理上的优势。

开发者友好教程公开

为了让广大开发者更快上手，QuACK 的创建者们还撰写了一篇详尽的技术教程，展示了具体实现步骤和代码逻辑。

聚焦内存密集型优化

文章强调，要在 GPU 的训练与推理过程中实现高效运算，不仅要优化计算密集型内核，更要重视内存密集型内核的性能。过去，矩阵乘法与注意力机制的优化已趋于成熟，而本次研究则将重点转向了此前较少被关注的内存密集型领域。

巧妙利用硬件特性

作者解释称，由于内存密集型内核的算术强度较低，吞吐量主要取决于每秒传输的数据量。通过充分挖掘 GPU 的内存层级结构与硬件特性，他们成功将此类内核的性能提升至接近"光速"的水平。