智源研究院近日正式发布新一代统一图像生成模型OmniGen2,该模型在保持前代简洁架构的同时,通过技术升级显著提升了多模态生成能力。作为开源项目,其GitHub仓库上线一周即获得超过2000星标,海外社交平台相关话题浏览量达数十万次,引发AI社区广泛关注。
技术架构方面,OmniGen2采用分离式设计解耦文本与图像处理路径,通过ViT和VAE双编码器策略,在保证文本生成能力的同时提升图像一致性。模型基于Qwen2.5-VL-3B多模态大模型构建,参数量达40亿,支持通过特殊标记实现文图生成模式切换。值得注意的是,研发团队创新性地引入反思机制,使模型能对生成结果进行自我评估与迭代优化。
功能实现上,该模型具备三大核心能力:一是基于自然语言指令的图像编辑,可完成物体增删、色彩调整等精细化操作;二是多模态上下文参考生成,能提取输入图像元素合成新场景;三是任意比例的文生图功能。测试数据显示,在GenEval和DPG-Bench等基准测试中,其图像生成质量评分分别达到0.86和83.57,较开源竞品提升显著。
为突破数据瓶颈,研究团队重构训练流程,从140万视频帧中提取相似画面构建数据集,并开发配套的指令生成技术。目前模型权重、训练代码及数据集已全面开源,配套的FlagScale推理框架通过TeaCache加速策略实现32%效率提升,支持跨机多实例弹性部署。
据智源研究院透露,OmniGen2科研体验版已开放测试,后续将持续优化人脸相似度保持等专项能力。该模型的推出标志着国产多模态技术生态取得重要突破,为创意设计、数字内容生产等领域提供新的基础设施。
© 版权声明
文章版权归作者所有,未经允许请勿转载。