AI 在线工具 | 最新人工智能新闻与工具

循环模型崛起：挑战Transformer霸主地位

在深度学习领域，RNN 与 Transformer 曾各领风骚。如今，线性循环模型（如 Mamba）凭借卓越的序列处理能力，正逐步改变格局。

特别是在极长序列任务中，这些新型循环模型展现出惊人的潜力，远超传统 Transformer 的性能瓶颈。

Transformer 在处理长上下文时面临两大难题：一是固定上下文窗口限制，二是计算复杂度随序列长度迅速上升，导致整体性能下降。

反观线性循环模型，它们能够更灵活高效地应对长序列任务，这是其显著优势所在。

过去，循环模型在短序列任务中的表现往往不如 Transformer，这限制了其广泛应用。

然而，卡内基梅隆大学与 Cartesia AI 的最新研究彻底改变了这一认知。他们通过仅需 500 步的训练干预，使循环模型轻松处理长达 256k 的序列，展现出前所未有的泛化能力。

研究明确指出：循环模型并非存在结构性缺陷，而是潜能尚未被充分激发。

研究团队提出全新解释框架 ------ "未探索状态假说"。该假说认为，训练过程中模型接触的状态分布有限，是其在长序列上表现不佳的根本原因。

为实现长度泛化，他们引入多项训练干预策略，包括：

这些方法显著提升了模型在长序列任务中的适应力和稳定性。

实验结果表明，经过优化后的循环模型在各类长上下文任务中表现优异，不仅性能提升，系统稳定性也得到有效保障。

这项研究为循环模型的发展打开了新的思路，也为构建更高效的序列建模方案提供了坚实基础。