DFKI研究团队揭示AI可解释性存在X-hacking风险,医疗和社会科学领域或受威胁

近日,德国人工智能研究中心(DFKI)研究团队在国际机器学习大会上提出警示,指出人工智能系统的可解释性存在“X-hacking”欺骗风险,这一现象可能对医疗、社会科学等依赖模型解释的关键领域造成结构性威胁。

X-hacking的概念源于统计学中的P-hacking,后者指通过数据操作人为制造显著性结果的行为。在AI领域,X-hacking表现为两种机制:一是“选择性筛选”,即从预测性能相近的多个模型中刻意选择解释模式符合研究者预期的版本;二是“定向优化”,利用自动化机器学习(AutoML)工具同时优化预测性能和特定解释模式。这两种机制可能导致模型输出相同预测结果时,其解释依据却存在显著差异。

随着AutoML技术的普及,传统需要专业工程师完成的模型架构选择、超参数优化等任务已实现自动化。虽然这降低了技术门槛并提升开发效率,但也加剧了模型决策过程的“黑箱”特性。DFKI团队特别强调,在医疗诊断场景中,若AI系统通过X-hacking生成与真实病理无关的解释依据,可能误导临床决策;在社会科学领域,则可能扭曲政策制定的数据基础。

目前,该风险尚未引起行业足够重视。研究团队建议建立针对AutoML工具的审计机制,要求开发者披露模型选择标准,并对解释结果进行交叉验证。值得注意的是,欧盟《人工智能法案》已将高风险AI系统的可解释性纳入强制合规要求,但具体技术标准仍有待完善。

这一发现正值全球AI治理关键时期。据国际组织统计,2024年因AI系统自身缺陷导致的安全事件占比达32.7%,其中解释性误导引发的连锁风险正成为新的监管焦点。业界专家呼吁,在推进AI应用落地的同时,需建立解释性验证的行业基准测试体系。

© 版权声明

相关文章