0.7秒“秒变”3D!Stability AI的SPAR3D模型重塑3D重建新速度
AI ToolBox
2025年7月21日
突破性模型 SPAR3D 加速图像三维重建
在计算机视觉领域,单图像3D重建技术因其能从二维图像中还原三维物体的形状与结构,成为研究热点。近日,知名开源平台 Stability-AI 推出创新模型 SPAR3D,将重建速度提升至仅需 0.7秒,为行业带来深远影响。
单图像3D重建面临诸多挑战,主流技术路线包括基于回归的方法与生成式建模方法。前者在推断可见区域时效率较高,但对遮挡部分的表面和纹理估计不够准确;后者虽能更好地处理不确定区域,却存在计算开销大、结果对齐差的问题。
SPAR3D 成功融合了这两种方法的优势,有效克服了各自的局限,显著提升了重建的效率与精度。
高效架构设计:点采样与网格化双阶段
SPAR3D 的整体架构由两个关键阶段构成:
- 点采样阶段:核心为点扩散模型,可从输入图像生成稀疏点云,包含 XYZ 坐标与 RGB 颜色信息。该模型基于 DDPM(去噪扩散概率模型)框架,通过引入高斯噪声并使用去噪器进行反向学习,掌握从噪声点云中恢复原始点云的能力。在推理过程中,采用 DDIM 采样器生成点云,并借助分类器自由引导(CFG)提升细节保真度。
- 网格化阶段:目标是从图像与点云生成带纹理的三维网格。SPAR3D 引入大型三平面 Transformer,能够从输入数据中预测三平面特征,进而估计物体的几何结构、表面纹理及光照信息。训练过程中,通过可微渲染器与渲染损失函数对模型进行监督,确保输出结果具备高质量与真实感。
卓越性能:全面超越传统方法
在 GSO 与 OmniObject3D 数据集上的测试结果表明,SPAR3D 在多个关键指标上均优于传统方法:
- GSO 数据集 :CD(Chamfer Distance)值为 0.120,FS@0.1 达 0.584,PSNR(峰值信噪比)为 18.6。
- OmniObject3D 数据集 : CD 值为 0.122,FS@0.1 为 0.587,PSNR 为 17.9。
这些数据充分体现了 SPAR3D 在几何结构与纹理质量方面的出色表现,展示了其在实际应用中的广阔前景。
开放未来:技术共享驱动创新
随着技术演进与应用场景的不断拓展,SPAR3D 有望在计算机视觉与三维重建领域发挥关键作用。其开源属性为开发者和研究人员提供了丰富的探索空间,推动更多创新成果的诞生。
如需获取 SPAR3D 的开源代码与模型,请访问: