返回上一页

谷歌 MoR 架构上线：50% 显存省掉，推理速度狂飙

AI ToolBox

AI ToolBox

2025年7月17日

革新架构提升模型效率

在人工智能领域，大型语言模型（LLM）凭借强大性能备受瞩目，但其部署过程中的高计算与内存开销一直是行业难题。谷歌 DeepMind 近期推出的 Mixture-of-Recursions（MoR） 架构，有望成为传统 Transformer 模型的有力替代方案。

动态路由优化计算分配

MoR 在递归 Transformer 的基础上进行创新，融合参数共享与自适应计算策略。通过将 token 级动态路由机制嵌入高效的递归结构，该模型在不增加计算成本的前提下，实现了与大型模型相当的性能表现。

借助轻量级路由系统，MoR 可为每个 token 独立分配递归深度，动态决定其所需的"思考"层级，从而更合理地调度计算资源，提升整体处理效率。

缓存机制降低内存压力

在实现层面，MoR 引入了智能缓存机制。该机制依据 token 的递归层级，选择性地存储和调取关键值对，有效减轻内存带宽负担，显著提升推理吞吐能力。

此外，MoR 还整合了参数共享、计算路由与递归级缓存等多项优化措施，在保证性能的同时大幅减少参数数量，降低模型计算开销。

实验验证性能优势

实验结果显示，在相同计算预算下，MoR 凭借更少参数超越了原始 Transformer 和递归 Transformer，展现了其卓越的性能潜力。

在少样本学习任务中，MoR 的平均准确率优于基线模型，参数量却减少近50%。
在不同计算预算下，MoR 始终优于递归基线模型。
当模型规模达到360M时，MoR 不仅可与传统 Transformer 持平，甚至在中低预算下实现性能反超。

适用于大规模部署的高效方案

凭借其高效的计算策略，MoR 能够处理更多训练数据，展现出良好的扩展性与实用性，成为适合大规模预训练与部署的理想选择。

随着 AI 技术持续演进，MoR 架构的推出为大型语言模型的高效化发展开辟了新路径，标志着 AI 研究迈入更深层次的优化阶段。