AniSora V3 版来袭!Bilibili 开源动漫视频生成模型,支持一键产出多样风格镜头

AI ToolBox
AI ToolBox
2025年7月3日

技术升级:更高质量与精准控制

AniSora V3基于Bilibili此前开源的CogVideoX-5B和Wan2.1-14B模型,并融合强化学习与人类反馈(RLHF)框架,显著优化了视频生成的视觉表现与动作连贯性。支持一键生成多种风格动画镜头,涵盖番剧片段、国创动画、漫画改编及VTuber等内容。

核心升级如下:

  • **时空掩码模块优化:**V3增强了对时空维度的控制能力,实现更复杂的动画任务,例如精细的角色表情管理、动态镜头移动以及局部图像引导生成。例如,"五位女孩在镜头放大时起舞,左手上举至头顶再下放至膝盖"的提示可生成同步自然、流畅优美的舞蹈动画。
  • **数据集扩展:**训练数据扩充至超过1000万高质量动漫视频片段(从100万原始视频中提取),并引入新的清洗流程,确保风格统一与细节丰富。
  • **硬件优化:**V3原生支持华为Ascend910B NPU芯片,完全基于国产平台训练,推理速度提升约20%,生成4秒高清视频仅需2至3分钟。
  • **多任务学习增强:**新增单帧图像生成、关键帧插值及唇部同步等功能,特别适用于漫画改编与虚拟主播内容创作。

在最新基准测试中,AniSora V3在VBench及双盲主观评测中表现出色,角色一致性与动作流畅度均达到行业领先水平,尤其在处理非现实物理动作(如夸张动漫动作)方面优势明显。

开源生态:社区驱动与透明发展

AniSora V3的完整训练与推理代码已于2025年7月2日更新至GitHub,开发者可通过Hugging Face获取模型权重及包含948个动画视频的评估数据集。Bilibili强调,AniSora是"献给动漫世界的开源礼物",鼓励社区参与共建。

用户可通过填写申请表并发送至指定邮箱(如 yangsiqian@bilibili.com)获取V2.0权重与完整数据集访问权限。

V3首次引入专为动漫视频设计的RLHF框架,借助AnimeReward与GAPO等工具进行微调,使输出更贴合人类审美与动漫风格需求。目前已有社区开发者基于V3开发定制化插件,例如增强吉卜力风格的表现力。

应用场景:从创意到商业落地

AniSora V3兼容多种动漫风格,包括日本动画、国产原创、漫画改编、VTuber内容及鬼畜动画,覆盖90%以上的动漫视频使用场景。具体应用包括:

  1. **单图转视频:**上传一张高质量动漫图片并搭配文本描述(如"角色在行驶的车内挥手,头发随风飘动"),即可生成动态视频,保持角色特征与艺术风格一致。
  2. **漫画改编:**将静态漫画帧转化为带动作与口型同步的动画短片,适合快速制作预告或推广内容。
  3. **VTuber与游戏:**支持实时生成角色动作,帮助独立创作者与游戏团队高效测试角色表现。
  4. **高分辨率输出:**生成视频支持高达1080p清晰度,满足社交媒体与流媒体平台的专业展示需求。

V3在处理多角色互动与动态背景时相较前代减少了约15%的伪影问题,生成时间平均缩短至2.5分钟(4秒视频)。

AniSora V3的推出大幅降低了动漫创作门槛,助力个人创作者与小型团队以更低成本产出高质量作品。相较于OpenAI的Sora或Kling等通用视频生成模型,V3专注于动漫领域,填补市场空白;相比字节跳动EX-4D侧重的4D多视角生成路线,V3更聚焦于2D/2.5D风格,展现独特技术路径。