美团开源VitaBench智能体评测基准,破解AI跨场景应用难题 美团正式开源VitaBench智能体评测基准,针对外卖点餐、旅游出行等真实场景设计66种工具调用任务。数据显示当前领先模型跨场景任务成功率仅30%,通过深度推理、工具使用、用户交互三大维度量化短板,推... AI产品动态# AI基础设施# VitaBench# 人工智能 4天前