返回上一页

字节跳动与清华大学携手开源前沿多模态框架HuMo

AI ToolBox

AI ToolBox

2025年9月12日

多模态视频生成新突破

字节跳动智能创作团队携手清华大学，推出全新开源框架 HuMo，专注于推动人体视频生成（HCVG）技术的发展。该框架支持文本、图像与音频的多模态协同输入，实现高质量视频内容的生成。

名称寓意与核心理念

HuMo 名为 "Human-Modal"，彰显其以人类为核心、聚焦人物活动的设计理念。该框架通过构建高质量数据集，并采用创新的渐进式训练方法，在多项视频生成任务中超越现有专业模型。

卓越性能表现

HuMo 可生成分辨率为 480P 与 720P 的视频，单段视频最长可达 97帧 ，并以 每秒25帧 的速度实现可控输出，满足多样化内容创作需求。

技术优势深度解析

框架的核心优势包括：

创新的数据处理流程
灵活的推理策略
渐进式多模态训练方式

这些技术的融合，不仅显著提升视频清晰度，还大幅优化生成效率。

开放共享，推动行业发展

HuMo 不仅是一款高效的视频生成工具，更为开发者与研究人员提供灵活的解决方案。项目已开源，欢迎更多技术爱好者参与，共同探索多模态视频生成的未来。