阿里通义万相Wan2.5发布:实现音画同步AI视频生成,10秒1080P影视级输出

9月24日,在2025杭州云栖大会主论坛上,阿里巴巴正式推出通义万相Wan2.5 Preview系列模型,标志着AI生成式技术在多模态领域取得关键突破。该系列包含文生视频、图生视频、文生图及图像编辑四大核心功能,其中视频生成模块首次实现音画同步的工业化级输出能力。

技术亮点方面,视频生成模型通过多模态融合算法,可自动匹配人声口型、环境音效与背景音乐。例如输入”雨中弹钢琴的场景”,系统将同步生成雨声、琴声及演奏者手指动作的精准对应画面。视频规格提升至10秒1080P/24fps,支持推拉摇移等运镜指令,满足短视频剧情、广告分镜等专业需求。图像模块新增复杂排版生成能力,可输出含中英文文字的艺术海报、流程图等结构化内容。

商业化应用已同步启动,开发者可通过阿里云百炼平台调用API接口,普通用户可直接在通义万相官网体验。该技术将显著降低影视级内容的生产成本,实测显示原本需要专业团队数小时制作的儿童故事动画,现在通过文本描述可在3分钟内完成音画合成。

据现场演示,模型对复杂指令的理解能力显著增强。当输入”先航拍城市夜景,再聚焦写字楼里加班的程序员特写”时,系统能自动规划镜头语言并保持画面连贯性。图像编辑功能支持实时风格迁移,用户上传照片后通过自然语言即可完成人物发型更换、背景重构等操作。

此次升级特别优化了跨模态一致性,在生成”老人在庭院拉二胡”的案例中,模型不仅准确还原乐器把位指法,生成的民乐旋律也与动作节奏完全匹配。这项突破使得非专业用户也能快速制作具备专业视听语言的作品,预计将对短视频、在线教育、电商广告等领域产生直接影响。

© 版权声明

相关文章