当地时间9月25日,人工智能研究机构OpenAI正式推出名为GDPval的全新基准测试体系,首次系统性评估其最新大语言模型GPT-5在多个职业领域与人类专家的表现差异。测试结果显示,该模型在美国GDP贡献度最高的九大行业中,已有40.6%的专业场景达到或超越人类专家水平。
这项测试覆盖医疗健康、金融、制造业、政府服务等关键经济领域,涉及软件工程师、护士、记者等44种职业。测试采用双盲评估机制,由各行业资深专家对AI生成内容与人类专业成果进行比对。在投行业务场景中,测试要求同时评估人类分析师与AI模型针对”最后一公里配送行业”撰写的竞争格局分析报告,结果显示配备额外计算资源的GPT-5-high版本在四成以上的专业任务中表现优异。
值得注意的是,竞争对手Anthropic的Claude Opus 4.1模型在49%的测试场景中与人类专家持平。OpenAI技术团队解释称,该差异主要源于视觉呈现效果的评估权重,强调测试更关注实质内容质量而非形式表现。测试同时揭示,当前评估仅聚焦于静态报告生成能力,尚未涵盖职业场景中的动态交互与复杂决策流程。
OpenAI首席经济学家Aaron Chatterji指出,GDPval的阶段性成果表明,AI模型已能有效承担特定专业任务,使人类从业者得以聚焦更高价值的创造性工作。评估负责人Tejal Patwardhan透露,相比15个月前GPT-4o仅13.7%的达标率,GPT-5的性能提升接近三倍,这种进化速度预示着AI在专业领域的应用前景将持续扩展。
公司声明强调,GDPval作为首版测试框架,目前仅反映专业工作的有限维度。未来将逐步扩展至更全面的职业能力评估,包括实时协作、复杂问题解决等核心人类技能。该测试的推出标志着OpenAI在通用人工智能(AGI)研发道路上取得重要阶段性成果,也为行业提供了量化AI专业能力的新基准。
© 版权声明
文章版权归作者所有,未经允许请勿转载。