苹果发布UniGen 1.5多模态AI模型:统一架构实现图像理解、生成与编辑一体化

苹果研究团队于2025年12月18日正式发布多模态AI模型UniGen 1.5,该模型通过统一架构设计首次实现图像理解、生成与编辑三大核心功能的一体化集成,标志着视觉AI领域的重要技术突破。与传统方案依赖多个独立模型分工处理不同任务的方式相比,UniGen 1.5采用单一系统架构,使图像理解能力直接优化生成效果,显著提升视觉输出的精准度。

针对图像编辑中普遍存在的复杂指令理解难题,研究团队创新开发”编辑指令对齐”技术。该技术通过引入中间预测环节,要求模型先根据原始图像和用户指令生成目标图像的详细文本描述,再执行具体编辑操作。这种”先构思后执行”的机制使模型深度解析用户意图,实验数据显示其编辑准确度较传统方法提升约30%。

在强化学习机制方面,团队突破性地设计出统一奖励系统,首次实现生成与编辑任务的协同优化。该系统通过量化评估指标建立跨任务质量标准,有效解决传统方案中因任务跨度大导致的质量不一致问题。在GenEval和DPG-Bench测试中,模型分别取得0.89和86.83的高分,显著优于BAGEL、BLIP3o等对比模型;在ImgEdit专项测试中以4.31分与GPT-Image-1等闭源模型表现持平。

研究团队在论文中同时指出当前技术局限:受离散去标记器制约,模型生成图像内文字时易出现字符错位;特定编辑场景下可能出现主体特征漂移,如动物毛发纹理异常等问题。这些技术瓶颈已被列为后续重点优化方向。该成果为创意设计、数字内容生产等领域提供了新的技术路径,其统一架构设计思路对多模态AI发展具有重要参考价值。

© 版权声明

相关文章