通义千问重磅开源图像生成模型Qwen-Image,即将推出AI图片编辑功能

AI产品动态13小时前发布 AI视野

近日,通义千问人工智能领域连续推出多项重要更新,其中图像生成模型Qwen-Image及其即将上线的图片编辑功能成为行业关注焦点。8月5日,通义千问正式开源其首个图像生成基础模型Qwen-Image,该模型采用20B参数的MMDiT架构,在复杂文本渲染和精确图像编辑方面取得突破性进展。测试数据显示,该模型在多项国际基准测试中均达到SOTA水平,尤其在处理中英文多行文本、段落级生成及细节呈现方面表现优异。

技术特性方面,Qwen-Image通过增强的多任务训练范式实现了编辑过程中的一致性保持,用户可通过简单指令完成局部修改而不影响整体画面结构。其开源特性显著降低了技术应用门槛,开发者可直接获取40GB模型文件进行二次开发,适用于电商详情页、平面设计等场景。

8月15日,通义千问进一步宣布三项重要升级:Qwen3系列模型实现100万tokens上下文拓展,处理长文本性能提升3倍;Qwen Chat Deep Reseache功能优化;以及Qwen-Image distilled模型登陆ComfyUI平台,仅需24G显存的消费级显卡即可流畅运行。官方特别透露,基于Qwen-Image的专用图片编辑模型已进入上线倒计时,该模型将支持扩图、风格迁移、图像修复等多样化编辑任务。

行业观察人士指出,这一系列技术迭代标志着通义千问正构建从生成到编辑的完整图像处理链条。通过开源策略与硬件门槛的降低,该技术有望加速渗透至消费级市场,推动AI图像处理技术在创意设计、内容生产等领域的规模化应用。随着图片编辑模型的即将发布,通义千问在多模态AI领域的布局已显现出更清晰的商业化路径。

© 版权声明

相关文章