近日,上海交通大学人工智能研究院AI for Science团队在化学智能领域取得突破性进展。由许岩岩、金耀辉等人领衔开发的ChemActor模型,成功实现了非结构化实验描述与结构化实验操作指令的双向翻译,为化学实验自动化提供了关键技术支持。
该研究针对有机合成、材料开发和药物筛选等领域面临的实验流程标准化难题,创新性地利用大语言模型(LLMs)的跨语言建模能力。ChemActor基于70亿参数模型进行微调,通过融合链式数据生成和分布差异筛选技术,构建了首个无需人工标注的实验指令生成框架。该系统可自动完成从单分子输入到完整实验流程生成的全过程,在语义对齐、逻辑合理性与结构还原等方面展现出显著优势。
性能测试显示,ChemActor在两个公开化学实验数据集上的表现优于现有方法,平均性能提升超过10%。该模型不仅能够生成实验指令,更能准确还原实验操作的语义结构,有效解决了化学文献中实验步骤描述风格多样、语义模糊的”语言壁垒”问题。
这项名为《ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data》的研究成果已发表于ACL main 2025会议。论文指出,结构化实验指令是实现自动化合成的底层语言,也是催化剂筛选、反应条件优化等关键任务的数据基础。该技术的突破为智能合成平台与无人实验室建设提供了重要支撑。
值得注意的是,这是继上海人工智能实验室发布ChemLLM模型后,我国科研机构在化学大语言模型领域的又一重要进展。随着AI for Science研究的深入,大语言模型正在推动化学研究范式从传统”手工理解”向”语言驱动”的智能化方向转型。
© 版权声明
文章版权归作者所有,未经允许请勿转载。