返回上一页

英伟达与港大麻省理工合作：创新KV缓存技术提升扩散模型推理速度

AI ToolBox

AI ToolBox

2025年7月9日

突破性架构实现高效文本生成

由英伟达、香港大学与麻省理工学院联合研发的Fast-dLLM技术，成功攻克了扩散语言模型在推理效率方面的关键难题。该创新方案通过块状生成机制与置信度驱动的并行解码策略，大幅提升了模型响应速度。

KV缓存加速机制详解

KV缓存作为自回归模型中常用的加速手段，能够通过存储注意力状态减少重复计算。然而由于扩散模型采用双向注意力机制，传统方法难以直接应用。Fast-dLLM 的解决方案是将文本生成划分为多个 token 块，在生成某一区块前，提前计算并缓存其他块的状态信息。

解决并行解码质量下降难题

面对并行解码导致的文本连贯性问题，研究团队引入了基于置信度评估的动态筛选机制。系统会在每一步解码时评估每个标记的可靠性，并仅对达到阈值的高可信度标记执行并行处理，从而保障输出质量。

实测性能表现亮眼

在 NVIDIA A100 80GB GPU 上进行的测试显示：

当块大小为32时，吞吐量达54.4 tokens/s，准确率78.5%
LLaDA 模型在 GSM8K 任务中实现：
- KV Cache 加速3.2倍
- 并行解码加速2.5倍
- 综合提速达8.1倍
- 生成长度1024时端到端加速高达27.6倍

所有实验结果均表明，Fast-dLLM 在实现显著加速的同时，有效维持了生成内容的高质量标准。