南洋理工与北大开源WORLDMEM,开启虚拟世界长期一致性新篇章

AI ToolBox
AI ToolBox
2025年7月22日

突破虚拟环境记忆瓶颈,WORLDMEM应运而生

近日,南洋理工大学联合北京大学王选计算机技术研究所与上海人工智能实验室,共同发布了开源长记忆世界模型------WORLDMEM 。该模型专注于解决虚拟环境中长期一致性难题,在视角切换与时间变化的复杂条件下,仍能保持3D空间的高度连贯性,显著优化用户交互体验。

图片

创新记忆机制,实现长期信息存储与调用

WORLDMEM 的关键突破在于其独特的记忆系统。该系统构建了由多个记忆单元组成的存储库,每个单元记录了特定时间点的场景信息与状态数据。借助这一机制,模型可高效提取过往观察结果,在视角或时间发生变动时,依然能重构出精确一致的场景画面。

相较于传统模型受限于短期上下文窗口,WORLDMEM 实现了对环境细节的长期保留,为虚拟世界构建带来全新可能。

高效检索匹配,确保场景连续生成

在生成新场景时,WORLDMEM 能够从庞大的记忆库中迅速定位最相关的历史信息。这一过程融合了复杂的推理与匹配机制,确保所提取内容与当前时间、视角及场景状态高度契合。

例如,当虚拟角色在环境中移动并返回原位置时,模型会自动调取先前的记忆帧,无缝还原原有场景,确保视觉与交互的一致性。

动态更新机制,持续优化生成质量

WORLDMEM 还具备动态更新能力。随着虚拟世界的演进,新场景与新信息会被不断补充至记忆库中,确保模型始终掌握环境的最新状态。

该模型采用基于条件扩散变换器的架构,支持整合外部动作信号,实现第一人称视角的虚拟世界生成,使角色能在环境中自由移动、灵活互动。

扩散强迫训练,提升响应效率

为增强时间维度上的模拟能力,WORLDMEM 采用扩散强迫技术进行训练。这种训练方式不仅增强了场景生成的连贯性,也使模型能够更好地响应各类动作指令与环境变化。

通过将动作信号映射至嵌入空间,并结合去噪时间步嵌入,模型的动作响应能力显著提升,进一步优化了虚拟环境的交互体验。

技术里程碑,赋能未来虚拟现实

WORLDMEM 的发布标志着虚拟环境模拟技术迈入新阶段。这一开源模型为未来的虚拟现实、游戏引擎、数字孪生等领域提供了强大支持,有望推动更真实、更智能的沉浸式体验发展。

  • 🌍 提升虚拟环境中的一致性与连贯性
  • 🔍 突破传统短记忆模型限制,实现长期记忆存储
  • 🔄 动态更新机制,持续优化场景生成质量