返回上一页

小红书发布新一代对话合成模型 FireRedTTS-2，助力 AI 播客制作

AI ToolBox

AI ToolBox

2025年9月15日

新一代对话合成技术登场

小红书智创音频技术团队近日发布全新对话合成模型 FireRedTTS-2，标志着对话生成技术迈入新阶段。该模型专注于解决传统方案中灵活性不足、发音错误频发、说话人切换不稳定及语调不够自然等问题。

核心技术升级，效果全面提升

通过重构核心模块，特别是优化离散语音编码器和文本语音合成模型，FireRedTTS-2 在多项主客观评估中表现出卓越性能，成为多说话人对话合成的优选方案。其技术报告已发布于 arXiv 平台，并提供专属 Demo 与代码链接供体验。

高度自然，精准控制

FireRedTTS-2 的一大亮点在于其高度自然的语音输出。模型能够精准控制重音、情绪和停顿等细节，生成音质清晰、语调流畅的语音内容。与闭源模型相比，它不仅支持高质量播客音频生成，还具备音色克隆功能。

只需提供一句语音样本，模型即可模仿发音人音色与语调习惯，自动生成整段对话，显著增强其在开源对话生成领域的竞争力。

多语言支持，训练效率提升

在训练过程中，FireRedTTS-2 支持包括中文、英语、日语、韩语和法语在内的多种语言，并通过低帧率离散语音编码器提升合成速度与稳定性。同时，采用双 Transformer 架构使语音输出更自然连贯。

值得一提的是，模型只需少量数据即可实现个性化音色定制，快速适配多种应用场景。

推动行业创新，未来可期

FireRedTTS-2 的发布不仅为 AI 播客与对话合成应用提供工业级解决方案，也为行业内外的技术探索打开了新思路。未来，技术团队将持续优化模型，扩展支持的说话人数与语言种类，并探索更多可控音效插入功能，以满足日益增长的市场需求。

代码链接: GitHub 项目地址

核心亮点一览

🎤 全新对话合成模型： FireRedTTS-2 提升语音自然度与合成稳定性。
🗣️ 音色克隆功能： 仅需少量语音样本即可生成多说话人自然对话。
🌐 多语言与低帧率支持： 适应多种语言环境，提升合成效率与适用性。