NewtonBench:港科大与英伟达推出AI科学发现评估新基准,模拟平行宇宙测试大模型推理能力

香港科技大学与英伟达联合研发团队近日发布了一项名为NewtonBench的创新基准测试,旨在通过模拟“平行宇宙”环境评估大语言模型(LLMs)的科学发现能力。该研究聚焦于解决当前AI科学发现评估中的两大核心难题:训练数据泄漏问题以及静态评估与真实科研探索的脱节。

研究团队指出,现有大模型的训练语料普遍包含已知科学定律,导致直接评估时难以区分模型是真正“发现”规律还是复现已有知识。NewtonBench通过构建虚拟实验环境,将物理定律参数动态调整以生成全新数据,从而模拟牛顿时代未被揭示的自然法则场景。例如,在基准测试中,万有引力常数等基础参数可能被重新设定,要求模型通过自主设计实验、分析数据来推导这些“平行宇宙”中的新定律。

这一基准的提出回应了学界对AI科研潜力的关键性质疑。此前,著名学者何恺明曾探讨大模型若置于牛顿时代是否具备独立发现物理定律的能力。NewtonBench通过动态环境设计,首次实现了对模型探索性研究能力的系统性评估,其框架支持研究者自定义变量范围、噪声水平及实验交互方式,更贴近真实科研流程。

目前,该基准已涵盖经典力学、电磁学等基础科学领域,未来计划扩展至化学、生物学等复杂系统。团队强调,这一工具不仅为评估模型科学推理能力提供新范式,也为开发面向未知领域探索的下一代AI系统奠定基础。相关技术细节已通过学术论文公开,并将在近期国际机器学习会议上进行展示。

© 版权声明

相关文章