阿里巴巴集团于2025年12月16日正式发布通义万相2.6系列模型,该系列作为国内首个支持角色扮演功能的视频生成模型,标志着AI视频创作技术进入全新阶段。目前模型已同步上线阿里云百炼平台及万相官网,并计划近期在千问APP开放体验。
此次升级的核心突破在于角色扮演功能的实现。万相2.6能基于输入视频中的角色外观与音色特征,生成包含单人、多人及人物互动的定制化视频内容。在影视级制作场景中,该技术可完成从分镜设计、角色演绎到画面配音的全流程自动化处理,例如用户仅需上传个人视频并输入科幻悬疑类提示词,系统即可生成具备专业运镜效果的短片。
技术架构方面,模型采用多模态联合建模技术,通过对时序信息中的主体情绪、姿态及多角度视觉特征的深度学习,结合声学特征提取,实现了画面与声音的全维度一致性控制。其分镜控制系统能将简单提示词转化为包含多镜头切换的连贯叙事视频,在广告设计、短剧制作等场景中,可保持多镜头间主体与场景的关键信息统一。
性能参数显示,万相2.6单次生成视频时长提升至15秒(基准测试视频10秒),支持音画同步、音频驱动生成等八大功能模块。相比9月发布的2.5版本,新模型在LMArena评测中图生视频能力保持国内领先地位,画质、音效及指令遵循等指标均有显著优化。
商业化应用层面,该模型已具备商用级一致性保持能力,可满足AI漫剧、广告设计等领域对角色、风格元素的稳定性需求。企业用户可通过阿里云百炼调用API接口,普通用户则可在官方平台直接体验。据透露,千问APP即将上线的版本将集成更多互动玩法,进一步降低专业级视频创作门槛。
© 版权声明
文章版权归作者所有,未经允许请勿转载。