人工智能基准

排序

美团发布业界首个中文全模态评测基准UNO-Bench，包含1250条全模态样本和2480条单模态样本，覆盖44类任务及5种模态组合。该基准首次验证全模态大模型"组合定律"，为AI行业提供科学评估标准...

7个月前

OpenAI推出GDPval基准测试体系，全面评估GPT-5在九大经济行业的专业能力。测试结果显示40.6%的职业场景达到或超越人类专家水平，性能较GPT-4o提升近三倍，标志着AI在专业领域应用的重...

8个月前