GPT-5职业能力大突破！OpenAI推出GDPval测试：40.6%专业场景超越人类专家

AI新闻资讯8个月前发布 AI视野

当地时间9月25日，人工智能研究机构OpenAI正式推出名为GDPval的全新基准测试体系，首次系统性评估其最新大语言模型GPT-5在多个职业领域与人类专家的表现差异。测试结果显示，该模型在美国GDP贡献度最高的九大行业中，已有40.6%的专业场景达到或超越人类专家水平。

这项测试覆盖医疗健康、金融、制造业、政府服务等关键经济领域，涉及软件工程师、护士、记者等44种职业。测试采用双盲评估机制，由各行业资深专家对AI生成内容与人类专业成果进行比对。在投行业务场景中，测试要求同时评估人类分析师与AI模型针对”最后一公里配送行业”撰写的竞争格局分析报告，结果显示配备额外计算资源的GPT-5-high版本在四成以上的专业任务中表现优异。

值得注意的是，竞争对手Anthropic的Claude Opus 4.1模型在49%的测试场景中与人类专家持平。OpenAI技术团队解释称，该差异主要源于视觉呈现效果的评估权重，强调测试更关注实质内容质量而非形式表现。测试同时揭示，当前评估仅聚焦于静态报告生成能力，尚未涵盖职业场景中的动态交互与复杂决策流程。

OpenAI首席经济学家Aaron Chatterji指出，GDPval的阶段性成果表明，AI模型已能有效承担特定专业任务，使人类从业者得以聚焦更高价值的创造性工作。评估负责人Tejal Patwardhan透露，相比15个月前GPT-4o仅13.7%的达标率，GPT-5的性能提升接近三倍，这种进化速度预示着AI在专业领域的应用前景将持续扩展。

公司声明强调，GDPval作为首版测试框架，目前仅反映专业工作的有限维度。未来将逐步扩展至更全面的职业能力评估，包括实时协作、复杂问题解决等核心人类技能。该测试的推出标志着OpenAI在通用人工智能（AGI）研发道路上取得重要阶段性成果，也为行业提供了量化AI专业能力的新基准。

文章版权归作者所有，未经允许请勿转载。

GPT-5职业能力大突破！OpenAI推出GDPval测试：40.6%专业场景超越人类专家

OpenAI秘密测试GPT-Alpha智能体：基于GPT-5的多模态AI或将重塑行业

Meta发布AI智能体评估平台ARE及Gaia2基准模型，破解真实场景适应性评估难题

相关文章

2025年7月AI应用市场趋势：视频生成与大模型应用领跑全球

多邻国2025年Q2财报：AI战略驱动营收增长41%，净利润飙升84%

OpenAI警示Atlas AI浏览器面临提示词注入攻击，承认短期内难以根除安全漏洞

Zendesk整合GPT-5实现客服革命：解决率超90%，响应速度提升35%

最新资讯

热门AI工具

热门资讯