苹果秘密研发多模态AI模型Manzano，剑指OpenAI与谷歌图像编辑霸主地位

AI产品动态8个月前发布 AI视野

近日，科技巨头苹果公司被曝正在秘密研发一款名为Manzano的多模态AI模型。据内部消息显示，该模型兼具图像理解与生成双重能力，技术指标已接近行业领先的OpenAI GPT-4o和谷歌Gemini 2.5 Flash Image（代号Nano Banana）。目前该研究仅以预印本论文形式披露，论文团队主要由华人研究员组成，其中包括已离职至Meta的知名学者庞若鸣。

Manzano的技术突破在于解决了多模态融合的长期难题。苹果在论文中展示的低分辨率样本显示，该模型能处理复杂提示场景，其综合性能与DeepSeek Janus Pro等专业模型相当。值得注意的是，苹果特别强调Manzano在保持生成质量的同时，实现了对图像内容的深度语义理解，这一特性在当前开源模型中较为罕见。

这一研发动向被视为苹果对谷歌Nano Banana现象级成功的直接回应。自8月26日发布以来，谷歌Gemini 2.5 Flash Image凭借革命性的”角色一致性”技术，已累计完成超2亿次图像编辑，带动Gemini应用下载量环比激增45%。LMArena平台数据显示，该模型在图像编辑榜单以1362分的成绩领先第二名近15%，其单次编辑成本仅0.3元人民币的商业化表现更引发行业震动。

市场分析指出，Manzano若成功面世，将打破当前由OpenAI主导的文本生成和谷歌领跑的图像编辑形成的市场格局。不过相较于已投入商用的竞品，苹果尚未公布该模型的具体发布时间表，也未提供可体验的演示版本。业界普遍关注这家以硬件见长的公司能否在AI军备竞赛中实现后发制人。

文章版权归作者所有，未经允许请勿转载。

苹果秘密研发多模态AI模型Manzano，剑指OpenAI与谷歌图像编辑霸主地位

OpenAI联手Etsy/Shopify推出ChatGPT即时结账功能，AI电商新时代开启

Anthropic发布Claude Sonnet 4.5：高效AI编程助手全面开放，代码生成准确率提升15%

相关文章

全球首款全流程国产类脑脉冲大模型“瞬悉1.0”开源，突破Transformer算力瓶颈

OpenAI警告科技巨头数据垄断，欧盟或将调整AI监管格局

ElevenLabs推出商用AI音乐生成API，破解版权难题助力多行业降本增效

谷歌整合Gemini与NotebookLM：AI交互精准度迎来重大升级

最新资讯

热门AI工具

热门资讯