阿里开源Qwen-Image-Layered：全球首个支持图层级编辑的AI图像生成模型

AI产品动态5个月前发布 AI视野

阿里巴巴集团于2025年12月22日正式开源其突破性图像生成模型 Qwen-Image-Layered，该技术首次在AI领域实现类似Photoshop的图层级编辑功能，标志着视觉大模型从“像素堆砌”向“结构化空间理解”的范式转变。这一创新成果已在魔搭社区、HuggingFace等平台全面开放，支持商业用途免费调用。

技术突破：分层架构重构AI图像编辑逻辑
传统视觉大模型长期受限于“扁平化认知”，将图像视为紧密耦合的像素矩阵，导致编辑时出现全局不可控变化。Qwen-Image-Layered通过三项核心技术实现突破：首先采用自研RGBA-VAE编码体系，在RGB色彩模式中嵌入Alpha透明度通道，使模型具备物理分离图层的能力；其次创新VLD-MMDiT架构配合3D位置编码，可智能推理被遮挡区域的背景纹理；最关键的是通过解析海量PSD源文件训练模型，使其掌握专业设计师的分层逻辑。实测显示，该模型能实现像素级精准编辑，例如移动画中元素时背景自动补全，编辑误差趋近于零。

行业影响：专业设计流程效率跃升
在商业广告、影视后期等需要精密控制的场景中，传统AI绘图因不可控性难以替代专业工具。Qwen-Image-Layered的“内在可编辑性”彻底改变了这一局面：动画工作室测试表明，角色动画制作效率提升40%，背景修改耗时从平均2.3小时缩短至8分钟。模型支持将图像分解为3-8个独立图层，用户可对特定元素进行位移、重绘或重新着色，其他图层保持完全不变。这种特性显著降低了抠图等重复性工作负荷，使设计师能专注于创意表达。

开源生态延续技术普惠战略
此次开源延续了阿里在AI领域的开放策略。截至目前，千问系列已开源近400个模型，全球下载量突破7亿次，衍生开发模型超18万个。企业服务市场数据显示，通义大模型以超百万客户规模领跑中国企服市场。技术团队同步发布了详细架构图和技术报告，开发者可通过ModelScope等平台获取完整资源。

业内人士评价，这项技术将加速AI在创意产业的深度整合，其分层理解能力可能延伸至3D建模、虚拟现实等领域，为下一代视觉计算基础设施奠定重要基石。随着模型在电商、游戏等场景的持续落地，数字内容生产成本有望实现结构性下降。

文章版权归作者所有，未经允许请勿转载。

阿里开源Qwen-Image-Layered：全球首个支持图层级编辑的AI图像生成模型

QQ音乐上线AI作歌功能，本地化大模型开启音乐创作新纪元

谷歌Gemini 3 Flash轻量模型性能反超旗舰版！成本骤降80%引爆AI效率革命

相关文章

百度学术全面AI重构升级，打造行业首个AI驱动一站式科研平台

腾讯发布ima 2.0：首个融合Agent能力的个人知识库平台，开启AI共事伙伴新时代

上海AI实验室联合团队推出OWMM-Agent，家庭服务机器人技术获重大突破

香港首发自主研发AI四足机械人物流自动化迎突破

最新资讯

热门AI工具

热门资讯

阿里开源Qwen-Image-Layered：全球首个支持图层级编辑的AI图像生成模型

QQ音乐上线AI作歌功能，本地化大模型开启音乐创作新纪元

谷歌Gemini 3 Flash轻量模型性能反超旗舰版！成本骤降80%引爆AI效率革命

相关文章

百度学术全面AI重构升级，打造行业首个AI驱动一站式科研平台

腾讯发布ima 2.0：首个融合Agent能力的个人知识库平台，开启AI共事伙伴新时代

上海AI实验室联合团队推出OWMM-Agent，家庭服务机器人技术获重大突破

香港首发自主研发AI四足机械人 物流自动化迎突破

最新资讯

热门AI工具

热门资讯

香港首发自主研发AI四足机械人物流自动化迎突破