阿里开源ThinkSound:CoT技术引领音频生成新纪元

AI ToolBox
AI ToolBox
2025年7月9日

glmos-code-explain

突破传统局限,实现高保真空间音频生成

近日,阿里语音AI团队 正式宣布开源全球首个支持链式推理的音频生成模型------ThinkSound。该模型首次引入思维链(Chain-of-Thought)机制,打破了以往视频转音频技术在动态画面捕捉方面的限制,成功实现了高质量、强同步的空间音频生成。

图片

这项技术标志着AI音频处理迈入新阶段:从单纯的"看图配音"升级为对画面内容的结构化理解与声音重建。

三阶段推理机制,提升音频生成精准度

传统的端到端视频转音频方法往往忽略画面细节与声音之间的时空关联,导致音频与视觉事件出现错位。而ThinkSound创新性地将多模态大语言模型与统一音频生成架构融合,构建出一套完整的三阶段推理流程:

  • 整体解析:系统首先分析画面中的运动轨迹和语义信息,生成结构化的推理链条;
  • 区域聚焦:针对具体声源物体区域,结合语义描述进一步细化声音特征;
  • 交互编辑:用户可通过自然语言指令进行实时调整,例如"在鸟鸣后添加树叶沙沙声"或"移除背景噪声"。

构建高质量数据集支撑模型能力

为了强化模型的结构化推理能力,研究团队专门构建了AudioCoT多模态数据集,总计包含2531.8小时的高质量样本。该数据集整合自VGGSound、AudioSet等多个真实场景下的音频资源,涵盖动物叫声、机械运转等丰富类型。

通过多阶段自动化筛选与人工校验机制,确保样本质量稳定可靠。此外,还特别设计了对象级与指令级样本,以应对如"提取猫头鹰鸣叫时避免风声干扰"等复杂任务。

性能领先,全面超越主流模型

实验结果显示,ThinkSound在VGGSound测试集的关键指标上相比当前主流方法提升超过15%。在MovieGen Audio Bench基准测试中,其表现也显著优于Meta同类模型。

目前,该模型的代码与预训练权重已全面开源,开发者可在GitHub、HuggingFace以及魔搭社区免费获取并使用。

未来展望:拓展沉浸式应用场景

据阿里语音AI团队透露,下一阶段将重点提升模型在复杂声学环境中的理解能力,并计划将其应用于游戏开发、虚拟现实等沉浸式场景。

这一技术不仅为影视音效制作和音频后期处理提供了全新工具,更可能重塑人机交互中的声音体验边界。业内专家认为,ThinkSound的开源将加速音频生成技术的普及,推动创作者经济向智能化方向迈进。

开源地址