美团发布业界首个中文全模态评测基准UNO-Bench,揭示全模态大模型”组合定律” 美团发布业界首个中文全模态评测基准UNO-Bench,包含1250条全模态样本和2480条单模态样本,覆盖44类任务及5种模态组合。该基准首次验证全模态大模型"组合定律",为AI行业提供科学评估标准... AI产品动态# AI大模型# UNO-Bench# 人工智能基准 3周前
GPT-5职业能力大突破!OpenAI推出GDPval测试:40.6%专业场景超越人类专家 OpenAI推出GDPval基准测试体系,全面评估GPT-5在九大经济行业的专业能力。测试结果显示40.6%的职业场景达到或超越人类专家水平,性能较GPT-4o提升近三倍,标志着AI在专业领域应用的重... AI新闻资讯# AGI# AI测试# GDPval 2个月前