AI测试

排序

OpenAI推出GDPval基准测试体系，全面评估GPT-5在九大经济行业的专业能力。测试结果显示40.6%的职业场景达到或超越人类专家水平，性能较GPT-4o提升近三倍，标志着AI在专业领域应用的重...

8个月前

谷歌AI推出Stax工具，提供大型语言模型（LLM）自定义评估功能，支持快速模型比较、结构化测试和灵活指标设计，解决AI输出一致性挑战，推动行业标准化发展。

9个月前