通义千问开源Qwen-Image-Edit图像编辑模型:实现语义与外观双重编辑突破

AI产品动态15小时前发布 AI视野

阿里巴巴集团旗下通义千问团队于8月19日正式推出Qwen-Image-Edit图像编辑模型,这是对8月5日开源的20B参数MMDiT基础模型Qwen-Image的重要功能扩展。该模型通过整合Qwen2.5-VL视觉语义控制模块与VAEEncoder视觉外观控制模块,首次在开源领域实现语义与外观双重编辑能力。

技术特性方面,Qwen-Image-Edit延续了基础模型在文本渲染方面的突破性表现,特别针对中英文多行段落级文本实现了像素级精准编辑。模型采用增强的多任务训练范式,在保持编辑内容一致性的同时,可对复杂场景中的细粒度细节进行修改。测试数据显示,其在GEdit、ImgEdit等主流图像编辑基准测试中均达到最先进水平(SOTA)。

实际应用中,用户可通过QwenChat平台(chat.qwen.ai)的”图像编辑”功能进行体验。该功能尤其擅长处理包含文字元素的图像修改需求,例如海报文案调整、PPT页面内容更新等场景。技术团队透露,模型对消费级显卡的适配工作已完成,24G显存设备即可流畅运行。

此次更新标志着通义千问在跨模态生成技术上的持续突破。此前开源的Qwen-Image模型已在Hugging Face开源社区登顶全球热度榜首,并在GenEval、DPG等12项国际基准测试中保持领先地位。目前该系列模型在OpenRouter全球市场份额已达12.3%,形成从生成到编辑的完整技术闭环。

© 版权声明

相关文章