哈佛医学院发布BRIDGE评测基准:全面评估大模型临床文本处理能力 BRIDGE(Benchmarking Large Language Models for Understanding Real-world Clinical Practice Text)是全球首个专... AI新闻资讯# AI医疗# 临床文本分析# 医学AI 5个月前
美团开源VitaBench智能体评测基准,破解AI跨场景应用难题 美团正式开源VitaBench智能体评测基准,针对外卖点餐、旅游出行等真实场景设计66种工具调用任务。数据显示当前领先模型跨场景任务成功率仅30%,通过深度推理、工具使用、用户交互三大维度量化短板,推... AI产品动态# AI基础设施# VitaBench# 人工智能 2周前