昆仑万维于2025年7月30日正式开源其多模态统一预训练模型Skywork UniPic,该模型以1.5B轻量化参数规模实现图像理解、生成与编辑的一体化能力,在多项基准测试中达到行业顶尖水平。这一开源举措标志着国产多模态大模型技术取得重要突破,为AI创意工具领域带来全新解决方案。
技术架构方面,Skywork UniPic采用自回归统一框架,通过掩码自回归(MAR)逐步生成图像patch,结合SigLIP2编码器突破传统VQ/VAE编码器对细节过度关注的局限。其创新性体现在三方面:首先,通过端到端协同训练使生成、理解和编辑能力相互增强,用户仅需输入文本指令即可完成多任务切换;其次,采用解耦视觉编码器设计实现图像生成与理解的深度融合;最后,通过渐进式多任务训练机制结合MAR与Harmon优化体系,显著提升模型语义理解与细粒度建模能力。
性能表现上,该模型在DPG-Bench复杂指令生成测试中获得85.5分,支持1024×1024高分辨率细节建模;图像编辑任务在GEditBench-EN中得分5.83分,可精准实现对象替换与风格迁移。值得注意的是,其1.5B参数规模下效果接近百亿参数专用模型,且能在消费级显卡流畅运行,大幅降低技术应用门槛。
数据构建与训练策略体现技术深度:团队精选预训练语料构建高效能多模态训练语料库,验证了小规模高质量数据训练可行性;设计两套专用奖励模型分别优化生成与编辑任务,既提升数据筛选精度,又作为强化学习奖励信号增强模型能力;采用分阶段参数解冻策略,确保模型逐步释放多任务适应能力。
昆仑万维此次开源包含完整模型权重、技术报告及全流程代码,资源已发布于Hugging Face等平台。该模型为开发者提供可落地的统一视觉基座,其开放协同模式有望加速多模态AI技术普及,推动创意工具、数字内容生产等领域的创新发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。