谷歌 MoR 架构上线:50% 显存省掉,推理速度狂飙
AI ToolBox
2025年7月17日
革新架构提升模型效率
在人工智能领域,大型语言模型(LLM)凭借强大性能备受瞩目,但其部署过程中的高计算与内存开销一直是行业难题。谷歌 DeepMind 近期推出的 Mixture-of-Recursions(MoR) 架构,有望成为传统 Transformer 模型的有力替代方案。
动态路由优化计算分配
MoR 在递归 Transformer 的基础上进行创新,融合参数共享与自适应计算策略。通过将 token 级动态路由机制嵌入高效的递归结构,该模型在不增加计算成本的前提下,实现了与大型模型相当的性能表现。
借助轻量级路由系统,MoR 可为每个 token 独立分配递归深度,动态决定其所需的"思考"层级,从而更合理地调度计算资源,提升整体处理效率。
缓存机制降低内存压力
在实现层面,MoR 引入了智能缓存机制。该机制依据 token 的递归层级,选择性地存储和调取关键值对,有效减轻内存带宽负担,显著提升推理吞吐能力。
此外,MoR 还整合了参数共享、计算路由与递归级缓存等多项优化措施,在保证性能的同时大幅减少参数数量,降低模型计算开销。
实验验证性能优势
实验结果显示,在相同计算预算下,MoR 凭借更少参数超越了原始 Transformer 和递归 Transformer,展现了其卓越的性能潜力。
- 在少样本学习任务中,MoR 的平均准确率优于基线模型,参数量却减少近50%。
- 在不同计算预算下,MoR 始终优于递归基线模型。
- 当模型规模达到360M时,MoR 不仅可与传统 Transformer 持平,甚至在中低预算下实现性能反超。
适用于大规模部署的高效方案
凭借其高效的计算策略,MoR 能够处理更多训练数据,展现出良好的扩展性与实用性,成为适合大规模预训练与部署的理想选择。
随着 AI 技术持续演进,MoR 架构的推出为大型语言模型的高效化发展开辟了新路径,标志着 AI 研究迈入更深层次的优化阶段。