苹果秘密研发多模态AI模型Manzano,剑指OpenAI与谷歌图像编辑霸主地位

AI产品动态3小时前发布 AI视野

近日,科技巨头苹果公司被曝正在秘密研发一款名为Manzano的多模态AI模型。据内部消息显示,该模型兼具图像理解与生成双重能力,技术指标已接近行业领先的OpenAI GPT-4o和谷歌Gemini 2.5 Flash Image(代号Nano Banana)。目前该研究仅以预印本论文形式披露,论文团队主要由华人研究员组成,其中包括已离职至Meta的知名学者庞若鸣。

Manzano的技术突破在于解决了多模态融合的长期难题。苹果在论文中展示的低分辨率样本显示,该模型能处理复杂提示场景,其综合性能与DeepSeek Janus Pro等专业模型相当。值得注意的是,苹果特别强调Manzano在保持生成质量的同时,实现了对图像内容的深度语义理解,这一特性在当前开源模型中较为罕见。

这一研发动向被视为苹果对谷歌Nano Banana现象级成功的直接回应。自8月26日发布以来,谷歌Gemini 2.5 Flash Image凭借革命性的”角色一致性”技术,已累计完成超2亿次图像编辑,带动Gemini应用下载量环比激增45%。LMArena平台数据显示,该模型在图像编辑榜单以1362分的成绩领先第二名近15%,其单次编辑成本仅0.3元人民币的商业化表现更引发行业震动。

市场分析指出,Manzano若成功面世,将打破当前由OpenAI主导的文本生成和谷歌领跑的图像编辑形成的市场格局。不过相较于已投入商用的竞品,苹果尚未公布该模型的具体发布时间表,也未提供可体验的演示版本。业界普遍关注这家以硬件见长的公司能否在AI军备竞赛中实现后发制人。

© 版权声明

相关文章