通义千问开源Qwen-Image-Edit图像编辑模型：实现语义与外观双重编辑突破

AI产品动态9个月前发布 AI视野

阿里巴巴集团旗下通义千问团队于8月19日正式推出Qwen-Image-Edit图像编辑模型，这是对8月5日开源的20B参数MMDiT基础模型Qwen-Image的重要功能扩展。该模型通过整合Qwen2.5-VL视觉语义控制模块与VAEEncoder视觉外观控制模块，首次在开源领域实现语义与外观双重编辑能力。

技术特性方面，Qwen-Image-Edit延续了基础模型在文本渲染方面的突破性表现，特别针对中英文多行段落级文本实现了像素级精准编辑。模型采用增强的多任务训练范式，在保持编辑内容一致性的同时，可对复杂场景中的细粒度细节进行修改。测试数据显示，其在GEdit、ImgEdit等主流图像编辑基准测试中均达到最先进水平（SOTA）。

实际应用中，用户可通过QwenChat平台（chat.qwen.ai）的”图像编辑”功能进行体验。该功能尤其擅长处理包含文字元素的图像修改需求，例如海报文案调整、PPT页面内容更新等场景。技术团队透露，模型对消费级显卡的适配工作已完成，24G显存设备即可流畅运行。

此次更新标志着通义千问在跨模态生成技术上的持续突破。此前开源的Qwen-Image模型已在Hugging Face开源社区登顶全球热度榜首，并在GenEval、DPG等12项国际基准测试中保持领先地位。目前该系列模型在OpenRouter全球市场份额已达12.3%，形成从生成到编辑的完整技术闭环。

文章版权归作者所有，未经允许请勿转载。

通义千问开源Qwen-Image-Edit图像编辑模型：实现语义与外观双重编辑突破

DeepSeek-V3.1重磅升级：128K上下文窗口震撼发布，长文本处理能力翻倍

英伟达Blackwell架构中国特供版B30A芯片9月送样，算力超H50%但存监管变数

相关文章

谷歌开源端侧多模态大模型Gemma 3n发布，2GB内存即可流畅运行

谷歌突破性研究：嵌套学习解决大模型灾难性遗忘问题，Hope模型性能大幅提升

英伟达Jet-Nemotron开源：2B/4B参数模型实现53倍推理吞吐量突破

PixVerse V5 Fast模型发布：AI视频生成速度提升30%，新增Modify精修功能

最新资讯

热门AI工具

热门资讯