美团开源VitaBench智能体评测基准,破解AI跨场景应用难题

10月20日,美团LongCat团队正式发布开源大模型智能体评测基准VitaBench(Versatile Interactive Tasks Benchmark)。该基准以真实生活场景为核心,通过外卖点餐、餐厅就餐、旅游出行三大高频场景构建交互式评测环境,包含66种工具调用及跨场景综合任务设计。例如旅游规划任务要求智能体完成从购票到订餐的全流程操作,需综合运用深度推理、工具调用与用户交互能力。

评测结果显示,当前领先的推理模型在复杂跨场景主榜任务中的成功率仅为30%,暴露出智能体在真实场景应用中的显著短板。团队首次提出基于三大维度的量化拆解方法:深度推理聚焦多步逻辑链构建,工具使用涵盖API调用与多模态交互,用户交互则模拟真实对话中的意图理解与动态响应。这种结构化评测体系为智能体研发提供了可量化的改进方向。

目前VitaBench已全面开源,相关代码、数据集及排行榜均对外开放。该基准的发布填补了现有评测体系在工具生态复杂度、信息密度和动态交互性等方面的空白,将成为推动智能体技术落地生活服务领域的重要基础设施。美团表示,后续将持续迭代场景库并联合行业共建评测标准。

© 版权声明

相关文章