Kyutai Labs 放大招:开源 Kyutai TTS,开启低延迟流式转语音新时代

AI ToolBox
AI ToolBox
2025年7月4日

前沿语音技术正式开源

7月3日,法国AI研究机构Kyutai Labs宣布开源其最新文本转语音(TTS)系统------Kyutai TTS ,为开发者与AI爱好者提供高效且实时的语音生成方案

图片

性能卓越,响应迅速

Kyutai TTS以低延迟高保真音质为核心优势,支持流式文本输入,无需等待完整文本即可启动音频生成,非常适合用于实时互动场景。

在单块NVIDIA L40S GPU的支持下,该模型可同时处理多达32个请求,延迟仅约350毫秒

更值得一提的是,系统不仅能生成高质量音频,还可输出单词级别的时间戳,便于实现如实时字幕或交互式中断等功能,例如Unmute平台的相关应用。

多语言支持,准确度出色

目前,Kyutai TTS已支持英语与法语两种语言,单词识别错误率分别为2.823.29,展现出出色的准确性。

语音合成在说话者相似度方面得分达到77.1% (英语)与78.7%(法语),语音自然逼真,贴近原始样本。

此外,系统能胜任长文本任务,打破传统TTS普遍存在的30秒限制,适合新闻播报、有声书等长篇内容制作。

架构先进,全面开放

Kyutai TTS采用创新的延迟流建模(DSM)架构,配合基于Rust语言的服务器实现高效批量处理。

该项目代码与模型权重已同步在GitHub和Hugging Face平台上开源,助力全球开发者共同推进语音技术发展。