Kyutai Labs 放大招:开源 Kyutai TTS,开启低延迟流式转语音新时代
AI ToolBox
2025年7月4日
前沿语音技术正式开源
7月3日,法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)系统------Kyutai TTS ,为开发者与AI爱好者提供高效且实时的语音生成方案。
性能卓越,响应迅速
Kyutai TTS以低延迟 与高保真音质为核心优势,支持流式文本输入,无需等待完整文本即可启动音频生成,非常适合用于实时互动场景。
在单块NVIDIA L40S GPU的支持下,该模型可同时处理多达32个请求,延迟仅约350毫秒。
更值得一提的是,系统不仅能生成高质量音频,还可输出单词级别的时间戳,便于实现如实时字幕或交互式中断等功能,例如Unmute平台的相关应用。
多语言支持,准确度出色
目前,Kyutai TTS已支持英语与法语两种语言,单词识别错误率分别为2.82 和3.29,展现出出色的准确性。
语音合成在说话者相似度方面得分达到77.1% (英语)与78.7%(法语),语音自然逼真,贴近原始样本。
此外,系统能胜任长文本任务,打破传统TTS普遍存在的30秒限制,适合新闻播报、有声书等长篇内容制作。
架构先进,全面开放
Kyutai TTS采用创新的延迟流建模(DSM)架构,配合基于Rust语言的服务器实现高效批量处理。
该项目代码与模型权重已同步在GitHub和Hugging Face平台上开源,助力全球开发者共同推进语音技术发展。