OpenAI发布FrontierScience基准测试:GPT-5.2博士级科学推理正确率仅25%,揭示AI独立科研能力短板 OpenAI发布FrontierScience基准测试,系统评估AI在物理、化学、生物领域的博士级科学推理能力。测试结果显示:GPT-5.2在竞赛赛道达77%正确率,但在开放式研究赛道仅获25%得分... AI新闻资讯# AI科学推理# AI科研能力# FrontierScience基准测试 2个月前
美团开源VitaBench智能体评测基准,破解AI跨场景应用难题 美团正式开源VitaBench智能体评测基准,针对外卖点餐、旅游出行等真实场景设计66种工具调用任务。数据显示当前领先模型跨场景任务成功率仅30%,通过深度推理、工具使用、用户交互三大维度量化短板,推... AI产品动态# AI基础设施# VitaBench# 人工智能 3个月前
哈佛医学院发布BRIDGE评测基准:全面评估大模型临床文本处理能力 BRIDGE(Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text)是全球首个专... AI新闻资讯# AI医疗# 临床文本分析# 医学AI 8个月前