阿里巴巴通义实验室于2025年12月31日正式开源其新一代图像生成模型Qwen-Image-2512,该模型在人物真实感、自然纹理细节和复杂文字渲染三大核心领域实现突破性进展,成为当前开源扩散模型的技术标杆。
技术特性与性能提升
Qwen-Image-2512采用多尺度特征融合架构,通过3D感知模块增强空间层次感,并优化注意力机制提升局部细节精度。测试数据显示,该模型能精准还原皮肤毛孔、发丝走向等微观细节,生成的人像可捕捉”微微前倾”等语义动作,彻底解决传统AI图像的”塑料脸”问题。在自然场景中,模型对水流动态、动物皮毛等纹理的刻画达到显微镜级别,金毛犬绒毛的蓬松感与盘羊皮毛的螺旋结构均能层次分明呈现。
文字渲染能力革新
该模型突破性地解决了复杂文字排版难题,支持多语言混合排版及立体字效生成。实际应用中可自动生成带技术图表的信息图、漫画风格PPT,甚至能完成对联等传统文化元素的精准渲染。在AI Arena平台的万次盲测中,其生成效果超越多数闭源商业模型。
行业应用落地
开源仅一周,该模型已在电商、设计、影视等领域显现价值。电商从业者反馈海报制作效率提升85%,建筑设计师可快速生成带构造线的效果图。配套开源的MIT协议允许商业机构自由二次开发,加速技术商业化进程。阿里云同步提供API接口服务,支持同步调用生成1024×1024分辨率图像。
此次升级标志着AI图像生成从”能用”到”好用”的转变,通过降低专业创作门槛,推动AIGC技术向生产力工具进化。模型代码及预训练权重已在GitHub等平台开放下载。
© 版权声明
文章版权归作者所有,未经允许请勿转载。