苹果发布Pico-Banana-400K数据集:40万张AI编辑图像推动多模态学习突破

苹果公司近日发布了一项突破性研究成果——Pico-Banana-400K数据集,该数据集包含40万张基于文本指令编辑的高质量图像,旨在推动AI图像编辑领域的研究发展。这一成果以非商业研究许可形式公开,允许学术机构自由使用,但明确禁止商业用途。

值得注意的是,该数据集的构建过程采用了谷歌的Gemini-2.5-Flash-Image模型(业内称为Nanon-Banana),这一当前最先进的图像编辑模型。研究团队从OpenImages数据集中精选真实照片作为基础素材,涵盖人物、物体及文字场景等多样化内容。通过设计35种图像修改指令并将其归类为八大编辑类型,包括像素调整、人物中心化编辑、场景重构等,形成了系统化的编辑体系。

为确保数据质量,苹果研究团队采用双重验证机制:先由Gemini-2.5模型执行编辑指令,再通过Gemini-2.5-Pro模型进行自动评估,仅保留符合质量标准的样本。数据集特别包含多轮编辑序列和对比”偏好对”样本,为模型训练提供了更丰富的学习素材。

这项研究直指当前图像编辑领域的数据瓶颈问题。苹果团队指出,现有数据集普遍存在领域偏移、编辑类型分布不均等问题,严重制约了鲁棒模型的开发。Pico-Banana-400K的发布被视为该领域的重大突破,有专家评价其可能成为”图像编辑领域的ImageNet”,为多模态学习奠定重要基础。

尽管构建过程中依赖第三方模型,苹果强调该数据集在质量控制方面的创新性,展示了AI自主生成训练数据的潜力。这一成果也引发业界对苹果在开放研究领域能力的重新评估,显示其在纯研究层面的技术实力。

© 版权声明

相关文章