OpenAI于2025年12月16日正式推出FrontierScience基准测试,旨在通过物理、化学、生物三大学科的700余道博士级难题,系统评估人工智能系统的专家级科学推理能力。测试结果显示,当前最先进的AI模型在复杂科研场景中仍存在显著短板,距离成为独立科研主体尚有较大差距。
该基准分为竞赛赛道与研究赛道两大模块。竞赛赛道包含100道短答案题,模拟国际奥赛环境,要求模型在严格约束条件下完成精准推理;研究赛道则设置60个开放式子任务,涵盖量子电动力学、合成有机化学等前沿领域,采用10分制评分标准,7分以上视为通过。其中160道”黄金组”题目已对外开源,其余题目作为数据污染追踪保留。测试团队特别强调,所有题目均经过严格筛选,确保OpenAI自家模型无法通过训练数据直接作答。
在题目设计层面,OpenAI组建了跨学科专家团队。竞赛赛道与42位国际奥赛奖牌得主及国家队教练合作,累计覆盖109枚国际奖项;研究赛道由45位活跃科研人员参与命题,涉及进化生物学等细分领域。这种设计使评测体系既具备专业深度,又能反映真实科研的复杂性。
最新测试数据显示,GPT-5.2在竞赛赛道取得77%正确率,但在研究赛道仅获25%得分。对比其他主流模型,Anthropic的Claude Opus 4.5在两项测试中分别获得71.4%和17.5%,谷歌Gemini Pro 3为76.1%和12.4%,xAI的Grok 4则为66.2%和15.9%。这一结果印证了AI作为”顶级做题家”在标准化测试中的优势,但在需要持续试错、跨领域融合的真实科研场景中仍显不足。
OpenAI指出,科学工作的本质是”提出假设-设计验证-推翻重来”的循环过程,现有AI系统尚难实现这种动态推理。尽管GPT-5.2在GPQA钻石测试中达到93.2%准确率,较两年前GPT-4的39%有显著提升,但公司强调需要更强大的基准来持续推动AI科研能力发展。该基准的推出,为量化AI模型加速科学发现的潜力提供了新工具,同时也揭示了当前技术瓶颈所在。
© 版权声明
文章版权归作者所有,未经允许请勿转载。