苹果多模态AI模型Manzano技术细节首度曝光,35亿参数支持2048像素处理

AI新闻资讯4小时前发布 AI视野

苹果公司近期在人工智能领域取得重要突破,其秘密研发的多模态AI模型Manzano技术细节通过预印本论文首次披露。该模型采用混合分词器、统一语言模型与独立图像解码器的三模块架构,参数规模覆盖9亿至35.2亿,支持最高2048像素分辨率处理能力。训练数据包含23亿图像-文本对和10亿文本-图像对,总计处理1.6万亿标记,部分数据源自DALL-E3等合成生成模型。

技术测试显示,Manzano在ScienceQA等基准测试中表现突出,300亿参数版本在文字密集型任务中优势显著。模型性能呈现规模相关性,30亿参数版本较最小模型部分任务得分提升超10分。值得注意的是,其统一架构与专业系统的性能差距控制在个位分值,30亿版本差距不足1分。

该模型创新性采用混合图像分词技术,通过共享编码器同步输出连续标记(浮点型图像理解数据)和离散标记(符号化生成数据),有效解决传统模型在理解与生成任务间的冲突问题。在复杂提示场景测试中,Manzano生成质量接近GPT-4o和Gemini 2.5 Flash等商业系统,具备风格迁移、图像叠加等进阶功能。

目前Manzano仍处于研发阶段,尚未发布正式版本。虽然论文显示其技术指标已接近行业前沿,但苹果仍计划在iOS 26中整合OpenAI的GPT-5。分析认为,该模型的模块化设计支持组件独立升级,未来或可降低对外部模型的依赖,其实际应用效果有待后续版本验证。

© 版权声明

相关文章