英伟达与港大麻省理工合作:创新KV缓存技术提升扩散模型推理速度
AI ToolBox
2025年7月9日
突破性架构实现高效文本生成
由英伟达、香港大学与麻省理工学院联合研发的Fast-dLLM技术,成功攻克了扩散语言模型在推理效率方面的关键难题。该创新方案通过块状生成机制与置信度驱动的并行解码策略,大幅提升了模型响应速度。
KV缓存加速机制详解
KV缓存作为自回归模型中常用的加速手段,能够通过存储注意力状态减少重复计算。然而由于扩散模型采用双向注意力机制,传统方法难以直接应用。Fast-dLLM 的解决方案是将文本生成划分为多个 token 块,在生成某一区块前,提前计算并缓存其他块的状态信息。
解决并行解码质量下降难题
面对并行解码导致的文本连贯性问题,研究团队引入了基于置信度评估的动态筛选机制。系统会在每一步解码时评估每个标记的可靠性,并仅对达到阈值的高可信度标记执行并行处理,从而保障输出质量。
实测性能表现亮眼
在 NVIDIA A100 80GB GPU 上进行的测试显示:
- 当块大小为32时,吞吐量达54.4 tokens/s,准确率78.5%
- LLaDA 模型在 GSM8K 任务中实现:
- KV Cache 加速3.2倍
- 并行解码加速2.5倍
- 综合提速达8.1倍
- 生成长度1024时端到端加速高达27.6倍
所有实验结果均表明,Fast-dLLM 在实现显著加速的同时,有效维持了生成内容的高质量标准。