Eigen-1多智能体系统在HLE测试中创历史新高，准确率突破60%大关

AI新闻资讯2个月前发布 AI视野

近日，由耶鲁大学、上海交通大学、UCLA、牛津大学及Eigen AI等机构联合研发的Eigen-1 多智能体系统在HLE（Humanity’s Last Exam）测试中取得里程碑式突破。该系统在Bio/Chem Gold测试子集的Pass@1准确率达到48.3%，Pass@5准确率更是以61.74%的历史性成绩首次突破60分大关，显著超越谷歌Gemini 2.5 Pro（26.9%）、OpenAI GPT-5（22.82%）和Grok 4（30.2%）等主流模型。

值得注意的是，这一突破性成果建立在开源框架DeepSeek V3.1基础上，通过三项核心技术实现性能跃升：Monitor-based RAG机制实现隐式知识增强，HSR架构完成分层解法修复，QAIR系统则通过质量感知迭代推理优化决策流程。研究团队强调，该成果验证了开源生态在尖端AI研发中的可行性，为规避闭源模型的技术垄断提供了新范式。

HLE测试由数百名领域专家设计，涵盖3000项前沿科学问题，此前最高准确率不足10%。此次突破标志着AI在结构化学术问题解决能力上首次达到专家水平，但研究者指出，这仅反映特定领域的技术推理能力，与通用人工智能（AGI）仍存在本质区别。随着测试基准动态升级，后续将重点关注模型在开放式研究场景中的表现。

文章版权归作者所有，未经允许请勿转载。

Eigen-1多智能体系统在HLE测试中创历史新高，准确率突破60%大关

OpenAI CEO预测：2030年前实现通用人工智能，将接管30%-40%经济活动

OpenAI前CTO团队发布《模块流形》研究，大模型训练效率提升40%

相关文章

英伟达CEO黄仁勋招募两位华人AI顶尖学者强化企业级AI布局

周鸿祎：AI发展进入下半场，智能体技术成产业变革核心力量

北京发布AI+医药健康三年计划：个性化医疗与智能工厂成重点

PPIO发布国内首个Agentic AI基础设施平台，加速智能体技术规模化应用

最新资讯

热门AI工具

热门资讯

Eigen-1多智能体系统在HLE测试中创历史新高，准确率突破60%大关

OpenAI CEO预测：2030年前实现通用人工智能，将接管30%-40%经济活动

OpenAI前CTO团队发布《模块流形》研究，大模型训练效率提升40%

相关文章

英伟达CEO黄仁勋招募两位华人AI顶尖学者 强化企业级AI布局

周鸿祎：AI发展进入下半场，智能体技术成产业变革核心力量

北京发布AI+医药健康三年计划：个性化医疗与智能工厂成重点

PPIO发布国内首个Agentic AI基础设施平台，加速智能体技术规模化应用

最新资讯

热门AI工具

热门资讯

英伟达CEO黄仁勋招募两位华人AI顶尖学者强化企业级AI布局