智能体性能

权威测试显示中国开源大模型Kimi K2在智能体任务中运行速度比GPT-5快5倍，准确率领先50%以上，位列LMSys开源榜单第一，正在改变全球AI应用生态格局。

7个月前

MetaGPT团队推出RealDevWorld评估基准，显著提升多智能体性能评估精准度与全面性。该基准采用分层架构，涵盖代码生成、动态协作与持续学习，推动多智能体技术在软件工程和自动化决策领域的标准化...

9个月前