开源音频天花板!Voxtral 7B 模型发布,秒级克隆人声 + 环境声

AI ToolBox
AI ToolBox
2025年7月16日

打破垄断,推动开源语音技术发展

随着人工智能技术的迅猛进步,语音正逐渐成为人机交互的重要方式。法国知名初创企业 Mistral 近日正式推出了其首款开源音频模型 Voxtral,旨在挑战大型科技企业的封闭系统,为开发者提供更灵活、更具成本效益的替代选择。

图片

真正可用的语音智能模型

Mistral 表示,Voxtral 是首个在实际场景中实现"真正可用语音智能"的开源模型。这意味着开发者无需再在低成本但性能有限的开源方案与高效但封闭昂贵的商业方案之间艰难取舍。Voxtral 以"不到一半价格"的优势,为企业带来更具性价比的选择。

强大功能,支持多语言与长音频处理

根据官方介绍,Voxtral 能够转录长达30分钟的音频内容。依托 Mistral 自研的小型大语言模型 Small3.1 ,用户可理解最长40分钟的音频材料。 不仅可以对音频内容进行提问、生成摘要,还能将语音指令转化为实时操作,如调用 API 或执行具体任务。 此外,该模型具备强大的多语言能力,可识别并转录英语、西班牙语、法语、葡萄牙语、印地语、德语、荷兰语和意大利语等多种语言。

多种版本满足不同部署需求

Mistral 提供了两个主要的 Voxtral 变体:

  • Voxtral Small:参数量达240亿,适用于生产环境部署,竞争力对标 ElevenLabs Scribe、GPT-4o-mini 和 Gemini2.5Flash 等主流模型。
  • Voxtral Mini:参数量为30亿,适用于本地或边缘设备部署。

同时,还有一款专为转录优化的超轻量版本 ------ Voxtral Mini Transcribe,参数量仅3亿,性能优于 OpenAI 的 Whisper,价格却仅为后者的一半。

便捷获取与集成

开发者可通过 Hugging Face 免费下载 Voxtral 的 API 接口,也可在 Mistral 的聊天机器人 Le Chat 中体验其功能。 据公司介绍,API 的使用费用从每分钟 0.001美元起 ,极具吸引力。 此次发布恰逢 Mistral 上月推出的推理模型 Magistral,这些模型通过逐步分析问题提升响应稳定性与准确性。

持续引领欧洲AI开源生态

作为欧洲领先的 AI 创新力量之一,Mistral 始终致力于推动开源 AI 模型的发展。 值得一提的是,近期有媒体报道称该公司正在与多位投资者洽谈融资计划,拟筹集高达 10亿美元资金 ,其中包括来自阿布扎比的 MGX 基金