GPT-5职业能力大突破!OpenAI推出GDPval测试:40.6%专业场景超越人类专家 OpenAI推出GDPval基准测试体系,全面评估GPT-5在九大经济行业的专业能力。测试结果显示40.6%的职业场景达到或超越人类专家水平,性能较GPT-4o提升近三倍,标志着AI在专业领域应用的重... AI新闻资讯# AGI# AI测试# GDPval 4周前
谷歌AI推出Stax评估工具:重塑大型语言模型性能测试标准 谷歌AI推出Stax工具,提供大型语言模型(LLM)自定义评估功能,支持快速模型比较、结构化测试和灵活指标设计,解决AI输出一致性挑战,推动行业标准化发展。 AI产品动态# AI测试# LLM评估# Stax工具 2个月前