昆仑万维开源多模态框架Skywork UniPic 2.0,实现文本图像双模态处理

AI产品动态18小时前发布 AI视野

8月13日,昆仑万维在其SkyWork AI技术发布周期间正式开源了新一代多模态框架「Skywork UniPic 2.0」。该模型通过整合理解、生成与编辑三大核心能力,构建了统一的高效训练与推理体系,标志着多模态AI技术向产业落地迈出关键一步。

作为技术发布周的第三项成果,Skywork UniPic 2.0采用SD3.5-Medium架构进行轻量化设计,将传统仅支持文本输入的模型升级为同时处理文本和图像的双模态系统。其创新性体现在三方面:首先,通过改进生图编辑模块,实现了从单一图像生成到生成与编辑双功能的拓展;其次,结合Qwen2.5-VL-7B多模态模型与预训练连接器,构建了理解-生成-编辑的协同工作流;最后引入基于Flow-GRPO的渐进式强化策略,使生成与编辑任务在优化过程中保持性能平衡。

技术评测显示,这款仅含20亿参数的模型在生图质量指标上超越了参数规模更大的同类产品,包括7B参数的Bagel和12B参数的UniWorld-V1。其开源内容涵盖模型权重、推理代码及强化训练策略,显著降低了开发者的应用门槛。值得关注的是,该框架通过冻结模块与联合微调技术,实现了不同模态任务间的灵活切换,为影视制作、游戏开发等场景提供了可扩展的技术支持。

此次发布是昆仑万维五天连发五款AI模型的系列动作之一,此前已推出视频生成模型SkyReels-A3和游戏交互引擎Matrix-Game 2.0。公司表示,这一系列技术突破将加速多模态AI在消费级产品中的商业化进程,特别是在实时交互与三维内容生成领域已显现出明确的应用前景。目前所有模型均已通过开源社区向开发者开放,相关技术文档和案例库同步更新在项目主页。

© 版权声明

相关文章