阿里云通义万相开源Wan2.2-Animate动作生成模型，单图驱动视频生成实现技术突破

AI产品动态2个月前发布 AI视野

阿里云旗下通义万相团队于2025年9月19日正式开源动作生成模型Wan2.2-Animate，该模型凭借单图驱动动态视频生成的核心能力，成为AI视频生成领域的技术标杆。作为Animate Anyone模型的迭代版本，Wan2.2-Animate通过三大技术革新重新定义了创作边界。

技术架构上，模型首创”视觉-时序联合建模”体系，实现单张静态图片中主体结构与运动特征的解耦分析。例如上传人物站姿图片后，系统可自动识别20余个骨骼关节点，结合物理规律模拟跑步、舞蹈等自然动作，有效解决传统方案中肢体扭曲、背景穿帮等问题。其多模态对齐引擎支持文本指令与图像协同输入，用户通过”樱花树下转圈圈”等自然语言描述即可控制动作情感基调和环境互动细节。

模型创新性地整合了角色模仿与角色扮演双模式。前者可将参考视频中的动作迁移至静态形象，后者则保留原视频动作框架仅替换角色主体。研发团队为此构建百万级人物视频数据集，采用骨骼信号控制肢体运动，配合隐式特征提取技术实现面部表情毫米级复刻。特别设计的光照融合LoRA模块确保角色替换时与环境光源无缝适配，消除合成画面的光影断层。

性能测试显示，Wan2.2-Animate在4K分辨率下实现30帧/秒的实时生成，其视频质量、主体一致性等指标超越StableAnimator等开源方案，主观评测中甚至优于Runway Act-two商业闭源模型。目前开发者可通过GitHub、HuggingFace及魔搭社区获取140亿参数规模的完整模型，阿里云百炼平台同步开放API接口。该开源项目标志着国产AI在多模态生成领域实现从技术追随到性能引领的关键跨越。

文章版权归作者所有，未经允许请勿转载。

阿里云通义万相开源Wan2.2-Animate动作生成模型，单图驱动视频生成实现技术突破

高德地图TrafficVLM重大升级：AI实现车道级交通预测，90秒响应事故

Meta发布MobileLLM-R1系列小参数模型，端侧AI推理效率突破新高

相关文章

智谱推出GLM Coding Plan开发者套餐：每月20元起，GLM-4.5性能全球领先

英伟达Jet-Nemotron开源：2B/4B参数模型实现53倍推理吞吐量突破

商汤科技与小米集团合作突破：日日新大模型接入小米AI眼镜，开启智能交互新时代

Meta与Oakley联合发布智能眼镜Supernova 2 瞄准运动市场挑战Android XR

最新资讯

热门AI工具

热门资讯