阿里巴巴通义实验室近日开源了全新图像生成模型Z-Image,该模型以仅60亿参数(6B)的轻量级架构,实现了接近200亿参数(20B)级商业模型的视觉质量,显著降低了AI图像生成的技术门槛。模型采用单流Diffusion Transformer(DiT)架构,包含Turbo、Base和Edit三个专用版本,分别针对高效推理、基础研发和图像编辑场景优化。
技术层面,Z-Image通过解耦DMD(Diffusion Multi-Denoiser)与DMDR(Diffusion Multi-Denoiser Refinement)技术,仅需8步采样即可输出高清图像,显存占用控制在16GB以内,在NVIDIA RTX 30系列消费级显卡上即可流畅运行。实测显示,该模型在H800 GPU上可实现亚秒级生成速度,RTX 4090显卡单图生成耗时仅2.3秒,显存占用13GB。
核心突破体现在三方面:一是复杂指令理解能力,可精准解析”生成写着‘未来设计节’的霓虹海报”等嵌套指令;二是中英双语文字渲染技术,解决了传统AI绘图模型的文字乱码问题;三是光影与细节一致性表现优异,在人物肖像、材质反射等场景达到商业级水准。行业测试表明,其在ComfyUI框架下的表现已超越部分SDXL基线模型,中文海报生成稳定性尤为突出。
目前Z-Image-Turbo版本已登陆Hugging Face和ModelScope平台,采用Apache 2.0开源协议。Base和Edit版本将陆续发布,其中Edit版本支持通过自然语言指令实现图像换头改景等精准编辑。开发者可通过diffusers库直接调用,阿里云同步提交了相关代码至主流开源仓库。该模型的推出被视为对高参数依赖型商业模型的直接挑战,有望推动AI图像生成技术向轻量化、普惠化方向发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。