在首届大模型国际象棋对抗赛第二轮比赛中,OpenAI的o3模型以4比0的绝对优势击败同门轻量化版本o4-mini,顺利晋级决赛。这场由谷歌Kaggle Game Arena主办的赛事吸引了全球八大顶尖AI模型参与,旨在通过国际象棋这一策略游戏测试模型的推理与决策能力。
o3在本轮比赛中展现出压倒性优势,四局对弈均保持100%的准确率。其中第二局尤为亮眼,o3仅用12步便完成接近”密杀”(smothered mate)的精妙战术,其计算精度与战术执行能力获得专业棋手高度评价。作为o4-mini的完整版本,o3在计算深度和策略复杂度上的优势得到充分体现。
同时进行的另一场半决赛中,xAI的Grok 4与谷歌Gemini 2.5 Pro战况胶着,常规赛2比2平局后通过加赛决出胜负,最终Grok 4险胜晋级。至此,决赛将在o3与Grok 4之间展开,这场对决将于北京时间8月8日凌晨1点(美国东部时间8月7日下午1点)举行,由国际象棋世界冠军Magnus Carlsen与英国三连冠棋手David Howell联袂解说。
本次赛事采用文本交互形式进行,有效规避了视觉棋盘表示对语言模型的干扰,专注于评估纯推理能力。参赛模型需自主计算每步落子,允许最多三次重试机会。组织方Google DeepMind强调,该平台旨在突破传统基准测试的局限,通过实战对抗检验AI模型的真实能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。