昆仑万维开源Skywork UniPic多模态模型：1.5B参数实现图像生成与编辑一体化

AI产品动态10个月前发布 AI视野

昆仑万维于2025年7月30日正式开源其多模态统一预训练模型Skywork UniPic，该模型以1.5B轻量化参数规模实现图像理解、生成与编辑的一体化能力，在多项基准测试中达到行业顶尖水平。这一开源举措标志着国产多模态大模型技术取得重要突破，为AI创意工具领域带来全新解决方案。

技术架构方面，Skywork UniPic采用自回归统一框架，通过掩码自回归（MAR）逐步生成图像patch，结合SigLIP2编码器突破传统VQ/VAE编码器对细节过度关注的局限。其创新性体现在三方面：首先，通过端到端协同训练使生成、理解和编辑能力相互增强，用户仅需输入文本指令即可完成多任务切换；其次，采用解耦视觉编码器设计实现图像生成与理解的深度融合；最后，通过渐进式多任务训练机制结合MAR与Harmon优化体系，显著提升模型语义理解与细粒度建模能力。

性能表现上，该模型在DPG-Bench复杂指令生成测试中获得85.5分，支持1024×1024高分辨率细节建模；图像编辑任务在GEditBench-EN中得分5.83分，可精准实现对象替换与风格迁移。值得注意的是，其1.5B参数规模下效果接近百亿参数专用模型，且能在消费级显卡流畅运行，大幅降低技术应用门槛。

数据构建与训练策略体现技术深度：团队精选预训练语料构建高效能多模态训练语料库，验证了小规模高质量数据训练可行性；设计两套专用奖励模型分别优化生成与编辑任务，既提升数据筛选精度，又作为强化学习奖励信号增强模型能力；采用分阶段参数解冻策略，确保模型逐步释放多任务适应能力。

昆仑万维此次开源包含完整模型权重、技术报告及全流程代码，资源已发布于Hugging Face等平台。该模型为开发者提供可落地的统一视觉基座，其开放协同模式有望加速多模态AI技术普及，推动创意工具、数字内容生产等领域的创新发展。

文章版权归作者所有，未经允许请勿转载。

昆仑万维开源Skywork UniPic多模态模型：1.5B参数实现图像生成与编辑一体化

火山引擎发布SeedEdit 3.0：国产AI图像处理技术实现高清生成与智能编辑突破

理想汽车发布业内首个量产VLA司机大模型，i8纯电SUV开启智能驾驶新纪元

相关文章

英伟达发布Scene It to Believe It AI工具：文本生成3D模型，革新创意工作流

OpenAI推出ChatGPT教育新功能“一起学习”，AI与教育融合进入新阶段

阿里云Tablestore重磅升级：AI Agent记忆存储功能发布，成本降低30%

英伟达联合顶尖学府推出NitroGen开源模型，AI通过游戏视频实时生成操作信号实现动作控制突破

最新资讯

热门AI工具

热门资讯