2025年8月5日,阿里旗下通义千问团队宣布开源其首个图像生成基础模型Qwen-Image,采用20B参数的MMDiT架构,标志着该系列在生成式AI领域的技术突破。该模型在复杂文本渲染与精确图像编辑两大核心场景表现突出,当日即登上Hugging Face开源社区模型榜单首位。
技术特性方面,Qwen-Image展现出三项核心优势:其一,在文本渲染能力上实现跨语言高保真输出,支持中英双语的多行布局、超小字体及复杂图文混排,在GenEval、DPG等基准测试中取得SOTA成绩;其二,通过增强的多任务训练范式,模型在多轮图像编辑中能保持主体ID一致性,支持文字修改、姿势调整等精细化操作;其三,支持从写实到动漫的多种艺术风格,满足商业设计、广告创意等场景需求。
行业影响层面,此次开源延续了通义千问系列的技术辐射效应。据OpenRouter数据显示,该系列模型全球市场份额已达12.3%,此次Qwen-Image的发布进一步丰富了其开源矩阵。模型已在魔搭社区和Hugging Face同步开放,旨在降低视觉内容创作门槛,推动生成式AI生态建设。
通义千问团队表示,Qwen-Image的开源将加速AI图像生成技术在科研与产业端的落地进程,后续将持续优化模型的多模态能力。该模型的推出,被视为中国企业在全球AI竞赛中技术输出的又一重要里程碑。
© 版权声明
文章版权归作者所有,未经允许请勿转载。