苹果多模态AI模型Manzano技术细节首度曝光，35亿参数支持2048像素处理

AI新闻资讯8个月前发布 AI视野

苹果公司近期在人工智能领域取得重要突破，其秘密研发的多模态AI模型Manzano技术细节通过预印本论文首次披露。该模型采用混合分词器、统一语言模型与独立图像解码器的三模块架构，参数规模覆盖9亿至35.2亿，支持最高2048像素分辨率处理能力。训练数据包含23亿图像-文本对和10亿文本-图像对，总计处理1.6万亿标记，部分数据源自DALL-E3等合成生成模型。

技术测试显示，Manzano在ScienceQA等基准测试中表现突出，300亿参数版本在文字密集型任务中优势显著。模型性能呈现规模相关性，30亿参数版本较最小模型部分任务得分提升超10分。值得注意的是，其统一架构与专业系统的性能差距控制在个位分值，30亿版本差距不足1分。

该模型创新性采用混合图像分词技术，通过共享编码器同步输出连续标记（浮点型图像理解数据）和离散标记（符号化生成数据），有效解决传统模型在理解与生成任务间的冲突问题。在复杂提示场景测试中，Manzano生成质量接近GPT-4o和Gemini 2.5 Flash等商业系统，具备风格迁移、图像叠加等进阶功能。

目前Manzano仍处于研发阶段，尚未发布正式版本。虽然论文显示其技术指标已接近行业前沿，但苹果仍计划在iOS 26中整合OpenAI的GPT-5。分析认为，该模型的模块化设计支持组件独立升级，未来或可降低对外部模型的依赖，其实际应用效果有待后续版本验证。

文章版权归作者所有，未经允许请勿转载。

苹果多模态AI模型Manzano技术细节首度曝光，35亿参数支持2048像素处理

OpenAI CEO预测：2030年前AGI将接管30%-40%工作岗位，元学习能力成人类核心竞争力

京东健康发起AI普惠医疗加速计划，AI医生已服务1.5亿用户覆盖基层

相关文章

Perplexity CEO颠覆传统融资模式：用AI问答取代PPT路演，效率提升60%

浪潮信息发布超节点AI服务器“元脑SD200”，支持万亿参数大模型

Micro1完成3500万美元A轮融资，估值5亿美元，抢占AI数据标注市场机遇

印度首部AI院线电影《赤拉尼维·哈努曼-永恒》2026年上映，全程采用人工智能技术制作

最新资讯

热门AI工具

热门资讯