小红书发布新一代对话合成模型 FireRedTTS-2,助力 AI 播客制作
AI ToolBox
2025年9月15日
新一代对话合成技术登场
小红书智创音频技术团队近日发布全新对话合成模型 FireRedTTS-2,标志着对话生成技术迈入新阶段。该模型专注于解决传统方案中灵活性不足、发音错误频发、说话人切换不稳定及语调不够自然等问题。
核心技术升级,效果全面提升
通过重构核心模块,特别是优化离散语音编码器和文本语音合成模型,FireRedTTS-2 在多项主客观评估中表现出卓越性能,成为多说话人对话合成的优选方案。其技术报告已发布于 arXiv 平台,并提供专属 Demo 与代码链接供体验。
高度自然,精准控制
FireRedTTS-2 的一大亮点在于其高度自然的语音输出。模型能够精准控制重音、情绪和停顿等细节,生成音质清晰、语调流畅的语音内容。与闭源模型相比,它不仅支持高质量播客音频生成,还具备音色克隆功能。
只需提供一句语音样本,模型即可模仿发音人音色与语调习惯,自动生成整段对话,显著增强其在开源对话生成领域的竞争力。
多语言支持,训练效率提升
在训练过程中,FireRedTTS-2 支持包括中文、英语、日语、韩语和法语在内的多种语言,并通过低帧率离散语音编码器提升合成速度与稳定性。同时,采用双 Transformer 架构使语音输出更自然连贯。
值得一提的是,模型只需少量数据即可实现个性化音色定制,快速适配多种应用场景。
推动行业创新,未来可期
FireRedTTS-2 的发布不仅为 AI 播客与对话合成应用提供工业级解决方案,也为行业内外的技术探索打开了新思路。未来,技术团队将持续优化模型,扩展支持的说话人数与语言种类,并探索更多可控音效插入功能,以满足日益增长的市场需求。
- 代码链接: GitHub 项目地址
核心亮点一览
- 🎤 全新对话合成模型: FireRedTTS-2 提升语音自然度与合成稳定性。
- 🗣️ 音色克隆功能: 仅需少量语音样本即可生成多说话人自然对话。
- 🌐 多语言与低帧率支持: 适应多种语言环境,提升合成效率与适用性。