大模型评测

共 3 篇AI资讯

大模型评测

排序

发布更新浏览

OpenAI发布FrontierScience基准测试：GPT-5.2博士级科学推理正确率仅25%，揭示AI独立科研能力短板

OpenAI发布FrontierScience基准测试：GPT-5.2博士级科学推理正确率仅25%，揭示AI独立科研能力短板

OpenAI发布FrontierScience基准测试，系统评估AI在物理、化学、生物领域的博士级科学推理能力。测试结果显示：GPT-5.2在竞赛赛道达77%正确率，但在开放式研究赛道仅获25%得分...

AI新闻资讯 # AI科学推理 # AI科研能力 # FrontierScience基准测试

4个月前

美团开源VitaBench智能体评测基准，破解AI跨场景应用难题

美团开源VitaBench智能体评测基准，破解AI跨场景应用难题

美团正式开源VitaBench智能体评测基准，针对外卖点餐、旅游出行等真实场景设计66种工具调用任务。数据显示当前领先模型跨场景任务成功率仅30%，通过深度推理、工具使用、用户交互三大维度量化短板，推...

AI产品动态 # AI基础设施 # VitaBench # 人工智能

6个月前

哈佛医学院发布BRIDGE评测基准：全面评估大模型临床文本处理能力

哈佛医学院发布BRIDGE评测基准：全面评估大模型临床文本处理能力

BRIDGE（Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text）是全球首个专...

AI新闻资讯 # AI医疗 # 临床文本分析 # 医学AI

10个月前