OpenAI最新研究揭示了大型语言模型产生“幻觉”的核心机制,这一问题长期困扰AI行业并影响用户信任。研究表明,幻觉现象——即模型自信地生成看似合理但实际错误的信息——主要源于当前训练与评估体系的激励机制缺陷。
评估机制助长猜测行为
研究发现,现有评估方法类似标准化考试中的选择题评分规则:模型通过猜测可能获得部分分数,而选择“不知道”则必然失分。这种设计导致模型在不确定时倾向于冒险猜测而非坦诚承认局限。例如,当被问及学者Adam Tauman Kalai的博士论文题目时,主流模型会生成多个看似合理但均错误的答案。论文指出,即便最先进的GPT-5模型也难以完全避免此类问题,尤其在医疗、法律等高风险领域后果更为严重。
预训练的数据局限性
语言模型通过“下一个词预测”任务学习,缺乏对事实真伪的直接判别训练。对于训练数据中低频或随机性事实(如特定人物的生日),模型无法通过统计规律可靠推断真相。研究将这类错误归因为“singleton rate”(单例率)——即语料中仅出现一次的事实比例,这决定了幻觉率的下限。类比而言,模型能学会拼写规则,但无法凭空推断从未学习过的具体信息。
评估改革与缓解方案
OpenAI提出三方面改进:
1. 重构评分体系:对“自信错误”实施更严厉惩罚,同时对合理弃权给予部分加分,类似考试中的“倒扣分制”;
2. 行为校准指标:在模型评估中新增“置信阈值”分析,要求报告不同置信度下的答题率与错误率;
3. 产品层设计:默认在低置信度时返回“不确定”或触发检索验证,强制关键回答附带来源证据。
行业影响与争议
研究澄清了常见误区,例如“更大模型必然减少幻觉”或“100%准确率可消除错误”。微软Azure AI团队已在医疗场景验证,结合检索增强生成(RAG)技术可将幻觉率从29%降至4%。但批评者指出,全面改革评估体系面临路径依赖挑战,且过度谨慎可能牺牲实用性。Anthropic的Claude模型因高拒答率引发争议,凸显了可靠性与可用性的平衡难题。
这项研究标志着AI开发范式的潜在转变:从单纯追求性能指标转向构建可信赖的交互机制。OpenAI强调,唯有通过评估标准、训练方法和产品设计的协同革新,才能系统性降低幻觉风险。
© 版权声明
文章版权归作者所有,未经允许请勿转载。