免训练加速!上交大 EEdit 攻克扩散模型图像编辑时空冗余难题

AI ToolBox
AI ToolBox
2025年7月5日
AI资讯

由上海交通大学EPIC Lab张林峰教授团队主导,联合香港科技大学研究人员推出的EEdit⚡方法,成功入选ICCV 2025。该研究聚焦扩散模型在图像编辑中的效率瓶颈问题,提出了一套创新的优化框架。

图片

背景与挑战

随着流匹配扩散模型的发展,FLUX系列模型在生成质量方面超越传统SD系列,达到当前最佳水平。然而,在图像编辑任务中仍面临以下关键挑战:

  • 反演过程时间步多,计算开销大但对编辑质量提升有限;
  • 非编辑区域存在大量冗余计算,造成资源浪费;
  • 缺乏统一高效的加速机制来支持多种编辑引导方式。

针对这些问题的研究尚处于初级阶段,亟需有效解决方案。

核心思想与优势

EEdit⚡的核心理念是通过特征复用和区域控制,减少扩散模型在图像编辑中的时空冗余,从而实现高效推理。

  • 无需训练即可加速:基于开源FLUX-dev模型直接推理,无需额外训练或蒸馏,推理速度较原始版本提升超2.4倍,最快可比其他方法快10倍。
  • 首次解决时空冗余问题:通过反演特征复用(ISS)降低时间冗余,结合SLoC算法控制空间更新频率,有效减少不必要计算。
  • 广泛兼容各类编辑引导:支持参考图像、提示词、拖拽等多种编辑引导方式,具备良好的通用性。

研究动机分析

通过对猫变虎等编辑案例的分析发现:

  • 编辑区域如动物面部、毛发纹理变化剧烈,而非编辑区域变化较小;
  • 热力图显示非编辑区域在不同阶段的隐藏状态相似度高,说明空间冗余明显;
  • 缩减去噪时间步会导致结果崩坏,而减少反演时间步影响不大,表明反演过程存在更高时间冗余。

技术方案详解

EEdit基于MM-DiT架构构建整体图像编辑流程,核心模块为空间局域缓存算法(SLoC) ,辅以缓存索引预处理(TIP)技巧,显著提升性能。

  1. 初始化时为每个feature token分配随机分数,构成初始评分图;
  2. 对编辑区域施加奖励系数,相邻区域按距离衰减,动态调整评分分布;
  3. 根据评分排序选取前R%的token进行计算与缓存更新;
  4. 未选中token获得递增补偿,已选token重新累计,确保全局计算均衡。

TIP策略利用索引与内容无关特性,将在线操作转为离线预处理,进一步加快缓存更新速度。

实验成果展示

在多个权威数据集上进行评估,包括PIE-bench、Drag-DR、Drag-SR和TF-ICON,结果显示:

  • SLoC+ISS组合在PSNR、LPIPS、SSIM、CLIP等关键指标上普遍最优;
  • 推理时间和计算开销大幅下降,甚至媲美低参数量级的SD模型;
  • 在各种编辑引导模式下,编辑精度和背景一致性均优于现有方法。

与其他缓存加速算法相比,SLoC在加速比、延迟控制和前景保持度等方面表现突出,部分指标提升超过50%。