哈佛医学院发布BRIDGE评测基准:全面评估大模型临床文本处理能力

AI新闻资讯7小时前更新 AI视野

2025年6月14日,由哈佛大学医学院及其附属BWH医院YLab团队主导,联合伊利诺伊大学厄巴纳-香槟分校(UIUC)、麻省理工学院(MIT)、斯坦福大学及梅奥诊所等机构,正式发布全球首个专注于真实临床文本的多语言大语言模型评测基准BRIDGE(Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text)。该评测旨在填补大模型在标准化医学测试与临床实践之间的鸿沟,为医疗AI的落地提供科学依据。

临床实战需求催生新评测标准

近年来,GPT-4、Med-PaLM等大模型在美国医师执照考试(USMLE)中表现优异,但实际临床场景中的文本复杂度远超规范化考题。电子病历包含大量缩写、非结构化表述及多语言混杂内容,且任务类型多样(如表型提取、ICD-10编码等),传统评测难以反映模型真实能力。BRIDGE通过构建87项真实电子病历任务,覆盖9种语言,并对65种前沿大模型进行横向评估,成为目前医学领域规模最大、维度最全的评测之一。

评测核心:从“考场”到“病床”的跨越

BRIDGE重点关注两大挑战:
1. 语言复杂性:临床文本存在灵活的表达形式、拼写错误及专业术语缩写,要求模型具备强鲁棒性;
2. 任务多样性:除选择题外,需支持诊断推理、病历摘要生成等实际需求,且需适配不同语种和专科场景。

研究团队基于《NEJM AI》发表的临床文本数据集综述,整合改造开源数据,确保评测贴近真实医疗环境。例如,任务中模拟了患者主诉中的模糊表述、多语言混杂记录等典型噪声。

行业意义:为临床AI应用铺路

BRIDGE的发布为三类群体提供关键参考:
临床医生:可依据语言、科室或任务类型筛选最优模型;
开发者:精准识别模型短板,优化临床适应性;
监管机构:系统性评估性能差异,制定部署标准。

此前,斯坦福大学推出的MedHELM框架(2025年6月8日发布)虽从临床工作流角度构建评估体系,但未聚焦多语言与真实文本场景。BRIDGE的推出进一步细化了医疗AI的评估维度,标志着该领域从理论验证向实战落地的转型。

论文链接https://arxiv.org/pdf/2504.19467

© 版权声明

相关文章