阿里开源Qwen-Image-Layered:全球首个支持图层级编辑的AI图像生成模型

阿里巴巴集团于2025年12月22日正式开源其突破性图像生成模型Qwen-Image-Layered,该技术首次在AI领域实现类似Photoshop的图层级编辑功能,标志着视觉大模型从“像素堆砌”向“结构化空间理解”的范式转变。这一创新成果已在魔搭社区、HuggingFace等平台全面开放,支持商业用途免费调用。

技术突破:分层架构重构AI图像编辑逻辑
传统视觉大模型长期受限于“扁平化认知”,将图像视为紧密耦合的像素矩阵,导致编辑时出现全局不可控变化。Qwen-Image-Layered通过三项核心技术实现突破:首先采用自研RGBA-VAE编码体系,在RGB色彩模式中嵌入Alpha透明度通道,使模型具备物理分离图层的能力;其次创新VLD-MMDiT架构配合3D位置编码,可智能推理被遮挡区域的背景纹理;最关键的是通过解析海量PSD源文件训练模型,使其掌握专业设计师的分层逻辑。实测显示,该模型能实现像素级精准编辑,例如移动画中元素时背景自动补全,编辑误差趋近于零。

行业影响:专业设计流程效率跃升
在商业广告、影视后期等需要精密控制的场景中,传统AI绘图因不可控性难以替代专业工具。Qwen-Image-Layered的“内在可编辑性”彻底改变了这一局面:动画工作室测试表明,角色动画制作效率提升40%,背景修改耗时从平均2.3小时缩短至8分钟。模型支持将图像分解为3-8个独立图层,用户可对特定元素进行位移、重绘或重新着色,其他图层保持完全不变。这种特性显著降低了抠图等重复性工作负荷,使设计师能专注于创意表达。

开源生态延续技术普惠战略
此次开源延续了阿里在AI领域的开放策略。截至目前,千问系列已开源近400个模型,全球下载量突破7亿次,衍生开发模型超18万个。企业服务市场数据显示,通义大模型以超百万客户规模领跑中国企服市场。技术团队同步发布了详细架构图和技术报告,开发者可通过ModelScope等平台获取完整资源。

业内人士评价,这项技术将加速AI在创意产业的深度整合,其分层理解能力可能延伸至3D建模、虚拟现实等领域,为下一代视觉计算基础设施奠定重要基石。随着模型在电商、游戏等场景的持续落地,数字内容生产成本有望实现结构性下降。

© 版权声明

相关文章