阿里云旗下通义万相团队于2025年9月19日正式开源动作生成模型Wan2.2-Animate,该模型凭借单图驱动动态视频生成的核心能力,成为AI视频生成领域的技术标杆。作为Animate Anyone模型的迭代版本,Wan2.2-Animate通过三大技术革新重新定义了创作边界。
技术架构上,模型首创”视觉-时序联合建模”体系,实现单张静态图片中主体结构与运动特征的解耦分析。例如上传人物站姿图片后,系统可自动识别20余个骨骼关节点,结合物理规律模拟跑步、舞蹈等自然动作,有效解决传统方案中肢体扭曲、背景穿帮等问题。其多模态对齐引擎支持文本指令与图像协同输入,用户通过”樱花树下转圈圈”等自然语言描述即可控制动作情感基调和环境互动细节。
模型创新性地整合了角色模仿与角色扮演双模式。前者可将参考视频中的动作迁移至静态形象,后者则保留原视频动作框架仅替换角色主体。研发团队为此构建百万级人物视频数据集,采用骨骼信号控制肢体运动,配合隐式特征提取技术实现面部表情毫米级复刻。特别设计的光照融合LoRA模块确保角色替换时与环境光源无缝适配,消除合成画面的光影断层。
性能测试显示,Wan2.2-Animate在4K分辨率下实现30帧/秒的实时生成,其视频质量、主体一致性等指标超越StableAnimator等开源方案,主观评测中甚至优于Runway Act-two商业闭源模型。目前开发者可通过GitHub、HuggingFace及魔搭社区获取140亿参数规模的完整模型,阿里云百炼平台同步开放API接口。该开源项目标志着国产AI在多模态生成领域实现从技术追随到性能引领的关键跨越。
© 版权声明
文章版权归作者所有,未经允许请勿转载。