AI 在线工具 | 最新人工智能新闻与工具

前沿语音技术正式开源

7月3日，法国AI研究机构Kyutai Labs宣布开源其最新文本转语音（TTS）系统------Kyutai TTS ，为开发者与AI爱好者提供高效且实时的语音生成方案。

Kyutai TTS以低延迟 与高保真音质为核心优势，支持流式文本输入，无需等待完整文本即可启动音频生成，非常适合用于实时互动场景。

在单块NVIDIA L40S GPU的支持下，该模型可同时处理多达32个请求，延迟仅约350毫秒。

更值得一提的是，系统不仅能生成高质量音频，还可输出单词级别的时间戳，便于实现如实时字幕或交互式中断等功能，例如Unmute平台的相关应用。

目前，Kyutai TTS已支持英语与法语两种语言，单词识别错误率分别为2.82 和3.29，展现出出色的准确性。

语音合成在说话者相似度方面得分达到77.1% （英语）与78.7%（法语），语音自然逼真，贴近原始样本。

此外，系统能胜任长文本任务，打破传统TTS普遍存在的30秒限制，适合新闻播报、有声书等长篇内容制作。

Kyutai TTS采用创新的延迟流建模（DSM）架构，配合基于Rust语言的服务器实现高效批量处理。

该项目代码与模型权重已同步在GitHub和Hugging Face平台上开源，助力全球开发者共同推进语音技术发展。