近日,由耶鲁大学、上海交通大学、UCLA、牛津大学及Eigen AI等机构联合研发的Eigen-1多智能体系统在HLE(Humanity’s Last Exam)测试中取得里程碑式突破。该系统在Bio/Chem Gold测试子集的Pass@1准确率达到48.3%,Pass@5准确率更是以61.74%的历史性成绩首次突破60分大关,显著超越谷歌Gemini 2.5 Pro(26.9%)、OpenAI GPT-5(22.82%)和Grok 4(30.2%)等主流模型。
值得注意的是,这一突破性成果建立在开源框架DeepSeek V3.1基础上,通过三项核心技术实现性能跃升:Monitor-based RAG机制实现隐式知识增强,HSR架构完成分层解法修复,QAIR系统则通过质量感知迭代推理优化决策流程。研究团队强调,该成果验证了开源生态在尖端AI研发中的可行性,为规避闭源模型的技术垄断提供了新范式。
HLE测试由数百名领域专家设计,涵盖3000项前沿科学问题,此前最高准确率不足10%。此次突破标志着AI在结构化学术问题解决能力上首次达到专家水平,但研究者指出,这仅反映特定领域的技术推理能力,与通用人工智能(AGI)仍存在本质区别。随着测试基准动态升级,后续将重点关注模型在开放式研究场景中的表现。
© 版权声明
文章版权归作者所有,未经允许请勿转载。