返回上一页

AI聊天助手Stream-Omni：文本、视觉、语音的完美融合

AI ToolBox

AI ToolBox

2025年7月7日

全面支持多模态交互

在人工智能技术迅猛发展的背景下，中国科学院计算技术研究所自然语言处理团队推出了一款名为Stream-Omni的多模态大模型。该模型基于GPT-4o架构打造，能够同时处理文本、视觉和语音信息，展现出卓越的综合能力。

借助在线语音服务，用户不仅能实现语音交流，还能实时获取对应的文字转录内容，带来一种"边听边看"的沉浸式体验，极大提升了交互的自然度与流畅性。

创新的模态对齐方式

目前主流的多模态模型通常采用拼接不同模态表示的方式输入至语言模型中生成响应。这种方案不仅依赖大量三模态数据，也缺乏灵活性。

Stream-Omni 则采用了更加精准的模态关系建模方法，有效降低了对大规模三模态数据的依赖。它强调语音与文本之间的语义一致性，并让视觉信息在语义层面与文本形成互补，从而实现了更高效、更准确的模态对齐。

强大的语音交互功能

Stream-Omni 独具特色的语音建模机制，使其在语音交互过程中可像 GPT-4o 那样输出实时文字记录。这一设计显著增强了用户的交互体验，特别是在需要即时语音转文字的应用场景中，大幅提高了效率与便捷性。

灵活组合多种模态输入

Stream-Omni 的架构设计支持将视觉编码器、语音模块与大语言模型进行灵活组合，实现任意模态的自由搭配。这意味着用户可以根据实际需求，选择使用文本、语音或图像作为输入方式，均能获得一致且高质量的反馈。

性能优越，前景广阔

实验数据显示，Stream-Omni 在视觉理解方面的表现与同级别视觉模型相当，而在语音交互方面则明显领先于现有技术。其基于层级维度构建的语音-文本映射机制，确保了不同模态间语义的高度一致。

这一模型不仅为多模态交互提供了全新的思路，也凭借其灵活高效的技术特性，推动了文本、视觉与语音技术的深度融合。尽管在拟人化表达与音色多样性方面仍有提升空间，但无疑为未来智能交互系统奠定了坚实基础。

论文链接: https://arxiv.org/abs/2506.13642
开源代码: https://github.com/ictnlp/Stream-Omni
模型下载: https://huggingface.co/ICTNLP/stream-omni-8b