AI 在线工具 | 最新人工智能新闻与工具

前沿语音模型震撼发布

知名人工智能研究者李沐及其团队 Boson.ai 正式推出全新开源文本转语音（TTS）大模型------Higgs Audio v2。这款模型不仅实现高质量文本语音转换，更融合多语言对话生成、语调自动调节与语音克隆等多项能力，标志着语音合成技术迈入全新阶段。

多模态能力实现突破性进展

Higgs Audio v2 的核心优势在于其强大的多模态处理能力，既能解析文本内容，也能生成自然语音，胜任多样复杂任务。例如，它能创作歌词并以指定音色演唱，甚至可自动添加背景音乐，这在传统 TTS 技术中难以实现。

海量数据训练成就卓越性能

该模型基于超过 1000万小时语音数据 训练而成，确保在各类基准测试中表现优异。根据 EmergentTTS-Eval 测试结果 ，它在"情绪表达"和"语义理解"两个维度的胜率分别达到 75.7% 和 55.7%，远超 GPT-4o-mini-tts 模型。在传统 TTS 评估中同样表现出色，树立了行业新标准。

核心技术架构解析

从技术层面来看，Higgs Audio v2 采用先进数据处理机制，每秒处理 25帧语音信号，通过离散化音频分词器将其转化为序列编号，从而精准捕捉语义和声学特征。

同时，模型架构融合了预训练大语言模型，在语言理解与上下文建模方面展现出强大能力。更重要的是，它具备上下文学习能力，仅需简单提示即可快速适应新任务，实现零样本语音克隆。

多元应用场景拓展无限可能

在实际应用方面，Higgs Audio v2 具备广泛适配性：

支持实时语音聊天，提供低延迟、情感丰富的自然对话体验，适用于虚拟主播与语音助手场景
在音频内容创作领域，可生成自然对话与旁白，助力有声读物、互动培训和动态故事讲述
语音克隆功能可复制特定人物声音，为娱乐与创意产业开启全新想象空间

开放共享推动技术普及