英伟达与港大麻省理工合作:创新KV缓存技术提升扩散模型推理速度

AI ToolBox
AI ToolBox
2025年7月9日

突破性架构实现高效文本生成

由英伟达、香港大学与麻省理工学院联合研发的Fast-dLLM技术,成功攻克了扩散语言模型在推理效率方面的关键难题。该创新方案通过块状生成机制与置信度驱动的并行解码策略,大幅提升了模型响应速度。

图片

KV缓存加速机制详解

KV缓存作为自回归模型中常用的加速手段,能够通过存储注意力状态减少重复计算。然而由于扩散模型采用双向注意力机制,传统方法难以直接应用。Fast-dLLM 的解决方案是将文本生成划分为多个 token 块,在生成某一区块前,提前计算并缓存其他块的状态信息。

解决并行解码质量下降难题

面对并行解码导致的文本连贯性问题,研究团队引入了基于置信度评估的动态筛选机制。系统会在每一步解码时评估每个标记的可靠性,并仅对达到阈值的高可信度标记执行并行处理,从而保障输出质量。

实测性能表现亮眼

在 NVIDIA A100 80GB GPU 上进行的测试显示:

  • 当块大小为32时,吞吐量达54.4 tokens/s,准确率78.5%
  • LLaDA 模型在 GSM8K 任务中实现:
    • KV Cache 加速3.2倍
    • 并行解码加速2.5倍
    • 综合提速达8.1倍
    • 生成长度1024时端到端加速高达27.6倍

所有实验结果均表明,Fast-dLLM 在实现显著加速的同时,有效维持了生成内容的高质量标准。