11月6日,美团LongCat团队正式发布UNO-Bench全模态评测基准,这是业界首个面向中文场景的一站式全模态大模型评估体系。该基准通过统一框架同时衡量模型的单模态与全模态理解能力,并首次验证了全模态大模型的“组合定律”——弱模型受限于短板效应,而强模型则呈现协同增益效应,为行业提供了跨越模型规模的分析范式。
UNO-Bench包含1250条人工标注的全模态样本和2480条增强型单模态样本,覆盖44类任务及5种模态组合。其设计严格遵循跨模态可解性原则,98%的题目需依赖多模态信息融合才能解答,显著提升了评估的科学性。评测结果显示,以Gemini为代表的闭源模型在单模态及跨模态理解上仍领先开源阵营,但在复杂推理任务(如空间时序推理)中与人类专家存在差距。值得注意的是,该基准创新性地引入多步骤开放式问题形式,结合通用评分模型实现95%的自动化评估准确率。
此次发布是对美团11月3日开源的LongCat-Flash-Omni全模态模型的技术呼应。该5600亿参数模型采用端到端架构,在UNO-Bench测试中达到开源最先进水平,其创新的MoE设计(激活参数仅27B)实现了全模态实时交互能力。美团在两个月内已形成覆盖文本、图像、音频、视频的全模态模型家族,标志着其AI战略从基础研发到应用落地的闭环构建。
目前UNO-Bench数据集及相关代码已在Hugging Face平台开源,团队正推进英语及多语言版本开发。美团表示将持续扩展STEM与代码等高难度任务,探索模态交互机制,推动下一代通用AI发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。