索尼人工智能(Sony AI)近日在《自然》期刊发表研究成果,推出全球首个基于知情同意的多样性人类图像数据集“公平的以人类为中心的图像基准”(FHIBE),旨在系统性评估人工智能视觉模型中的偏见问题。该数据集包含来自81个国家或地区的1981名参与者的10318张图像,所有数据均通过符合伦理的知情同意流程获取,并涵盖年龄、代词类别、祖先血统、发色与肤色等人口统计和生理特征的详细标注。
研究指出,当前计算机视觉领域普遍依赖未经授权采集的网络图像训练AI模型,导致模型存在性别、种族等刻板印象。例如,部分模型错误地将女性医生归类为护士,或对深肤色人群生成负面推测。FHIBE通过标准化标注和多元化样本(如包含非二元性别代词使用者),可精准识别模型在职业判断、身份识别等任务中的偏差成因。
索尼AI团队在测试中发现,现有公开数据集均无法完全满足其设定的公平性基准。该数据集创新性地允许参与者随时撤回图像使用权,并记录拍摄时的相机参数等元数据,为开发者提供可追溯的技术分析基础。这一成果被视为推动AI伦理治理的重要工具,尤其对自动驾驶、面部识别等敏感应用具有实际指导意义。
此前,中国部分手机面部识别系统曾因训练数据中亚洲人脸占比不足导致误识别事件,凸显了数据多样性的必要性。FHIBE的发布标志着行业开始转向更规范的伦理数据实践,其方法论或将成为未来AI公平性评估的新标准。
© 版权声明
文章版权归作者所有,未经允许请勿转载。