阿里通义千问开源图像生成模型Qwen-Image，20B参数MMDiT架构引领生成式AI新突破

AI产品动态10个月前发布 AI视野

2025年8月5日，阿里旗下通义千问团队宣布开源其首个图像生成基础模型Qwen-Image，采用20B参数的MMDiT架构，标志着该系列在生成式AI领域的技术突破。该模型在复杂文本渲染与精确图像编辑两大核心场景表现突出，当日即登上Hugging Face开源社区模型榜单首位。

技术特性方面，Qwen-Image展现出三项核心优势：其一，在文本渲染能力上实现跨语言高保真输出，支持中英双语的多行布局、超小字体及复杂图文混排，在GenEval、DPG等基准测试中取得SOTA成绩；其二，通过增强的多任务训练范式，模型在多轮图像编辑中能保持主体ID一致性，支持文字修改、姿势调整等精细化操作；其三，支持从写实到动漫的多种艺术风格，满足商业设计、广告创意等场景需求。

行业影响层面，此次开源延续了通义千问系列的技术辐射效应。据OpenRouter数据显示，该系列模型全球市场份额已达12.3%，此次Qwen-Image的发布进一步丰富了其开源矩阵。模型已在魔搭社区和Hugging Face同步开放，旨在降低视觉内容创作门槛，推动生成式AI生态建设。

通义千问团队表示，Qwen-Image的开源将加速AI图像生成技术在科研与产业端的落地进程，后续将持续优化模型的多模态能力。该模型的推出，被视为中国企业在全球AI竞赛中技术输出的又一重要里程碑。

AI产品动态 # AI # MMDiT # Qwen-Image # 图像生成 # 开源模型 # 生成式AI # 通义千问

文章版权归作者所有，未经允许请勿转载。

阿里通义千问开源图像生成模型Qwen-Image，20B参数MMDiT架构引领生成式AI新突破

华为开源盘古大模型核心组件，推动全球AI生态发展

智谱发布基于GLM-4.5的开发效率工具Zread.ai，助力开发者提升项目理解与团队协作

相关文章

Anthropic推出Claude重大升级：自然语言构建AI应用

VAREdit突破AI图像编辑瓶颈：自回归框架实现0.7秒高保真编辑

小米发布首款AI智能眼镜：电致变色技术+多功能应用，重新定义智能穿戴

夸克AI覆盖70%中国大学生，日活榜首背后的教育革命

最新资讯

热门AI工具

热门资讯