阿里通义万相Wan2.5发布：实现音画同步AI视频生成，10秒1080P影视级输出

AI产品动态8个月前发布 AI视野

9月24日，在2025杭州云栖大会主论坛上，阿里巴巴正式推出通义万相Wan2.5 Preview系列模型，标志着AI生成式技术在多模态领域取得关键突破。该系列包含文生视频、图生视频、文生图及图像编辑四大核心功能，其中视频生成模块首次实现音画同步的工业化级输出能力。

技术亮点方面，视频生成模型通过多模态融合算法，可自动匹配人声口型、环境音效与背景音乐。例如输入”雨中弹钢琴的场景”，系统将同步生成雨声、琴声及演奏者手指动作的精准对应画面。视频规格提升至10秒1080P/24fps，支持推拉摇移等运镜指令，满足短视频剧情、广告分镜等专业需求。图像模块新增复杂排版生成能力，可输出含中英文文字的艺术海报、流程图等结构化内容。

商业化应用已同步启动，开发者可通过阿里云百炼平台调用API接口，普通用户可直接在通义万相官网体验。该技术将显著降低影视级内容的生产成本，实测显示原本需要专业团队数小时制作的儿童故事动画，现在通过文本描述可在3分钟内完成音画合成。

据现场演示，模型对复杂指令的理解能力显著增强。当输入”先航拍城市夜景，再聚焦写字楼里加班的程序员特写”时，系统能自动规划镜头语言并保持画面连贯性。图像编辑功能支持实时风格迁移，用户上传照片后通过自然语言即可完成人物发型更换、背景重构等操作。

此次升级特别优化了跨模态一致性，在生成”老人在庭院拉二胡”的案例中，模型不仅准确还原乐器把位指法，生成的民乐旋律也与动作节奏完全匹配。这项突破使得非专业用户也能快速制作具备专业视听语言的作品，预计将对短视频、在线教育、电商广告等领域产生直接影响。

文章版权归作者所有，未经允许请勿转载。

阿里通义万相Wan2.5发布：实现音画同步AI视频生成，10秒1080P影视级输出

阿里通义千问Qwen3-Max重磅发布：万亿参数模型刷新多项国际纪录

谷歌Mixboard AI工具公测：生成式AI重塑创意设计流程

相关文章

QQ浏览器电脑版推出「AI+」小窗功能，实现浏览场景无感AI融合

百度发布PP-OCRv5：0.07B参数实现多语言文本识别，效率提升13%

xAI Grok图像编辑功能引爆安全危机：深度伪造泛滥引发全球监管风暴

AI预测模型突破基因疾病风险评估，精准医疗迈入数据驱动新时代

最新资讯

热门AI工具

热门资讯