李沐团队 Higgs Audio v2:语音合成技术的全新里程碑

AI ToolBox
AI ToolBox
2025年7月24日

前沿语音模型震撼发布

知名人工智能研究者李沐及其团队 Boson.ai 正式推出全新开源文本转语音(TTS)大模型------Higgs Audio v2。这款模型不仅实现高质量文本语音转换,更融合多语言对话生成、语调自动调节与语音克隆等多项能力,标志着语音合成技术迈入全新阶段。

多模态能力实现突破性进展

Higgs Audio v2 的核心优势在于其强大的多模态处理能力,既能解析文本内容,也能生成自然语音,胜任多样复杂任务。例如,它能创作歌词并以指定音色演唱,甚至可自动添加背景音乐,这在传统 TTS 技术中难以实现。

海量数据训练成就卓越性能

该模型基于超过 1000万小时语音数据 训练而成,确保在各类基准测试中表现优异。根据 EmergentTTS-Eval 测试结果 ,它在"情绪表达"和"语义理解"两个维度的胜率分别达到 75.7%55.7%,远超 GPT-4o-mini-tts 模型。在传统 TTS 评估中同样表现出色,树立了行业新标准。

核心技术架构解析

从技术层面来看,Higgs Audio v2 采用先进数据处理机制,每秒处理 25帧语音信号,通过离散化音频分词器将其转化为序列编号,从而精准捕捉语义和声学特征。

同时,模型架构融合了预训练大语言模型,在语言理解与上下文建模方面展现出强大能力。更重要的是,它具备上下文学习能力,仅需简单提示即可快速适应新任务,实现零样本语音克隆。

多元应用场景拓展无限可能

在实际应用方面,Higgs Audio v2 具备广泛适配性:

  • 支持实时语音聊天,提供低延迟、情感丰富的自然对话体验,适用于虚拟主播与语音助手场景
  • 在音频内容创作领域,可生成自然对话与旁白,助力有声读物、互动培训和动态故事讲述
  • 语音克隆功能可复制特定人物声音,为娱乐与创意产业开启全新想象空间

开放共享推动技术普及

目前,该模型代码已全面开源,用户可通过 GitHubHugging Face 平台获取完整资源。支持本地部署,用户只需准备 GPU 版本的 PyTorch 环境,或使用 Docker 简化安装流程即可快速上手。