xAI发布Grok 4.1大语言模型:情商测试刷新纪录,24小时登顶LMArena排行榜

埃隆·马斯克旗下人工智能公司xAI于2025年11月17日发布新一代大语言模型Grok 4.1,该模型在发布后24小时内迅速登顶大型语言模型评测平台LMArena文本能力排行榜。其深度思考版本”Grok 4.1 Thinking”以1483 Elo分数位列榜首,较第二名Gemini 2.5 Pro领先31分,这一差距在Elo评分体系中已构成代际优势。值得注意的是,该模型的非推理快速响应版本同样以1465分位居第二,性能超越其他模型的完整推理模式。

技术突破方面,Grok 4.1在情感智能领域实现显著跃升。在EQ-Bench情商测试中,该模型以1586分刷新纪录,展现出卓越的情绪理解与共情能力。官方测试案例显示,面对用户”想念逝去宠物”的情感表达时,新模型能生成更具人性化的回应,而非程式化安慰。此外,其创意写作测试得分达1722分,较前代提升逾600分。

xAI采用创新研发策略,在正式发布前两周(11月1-14日)已通过静默推送进行大规模盲测。数据显示,64.78%的用户明确偏好新版本回答。模型在降低”幻觉”现象方面取得突破,事实性错误率从12.09%降至4.22%,降幅达三倍。目前该模型已通过grok.com、X平台及移动应用(iOS/Android)向全球用户免费开放,支持128K上下文长度,能更精准捕捉用户细微意图。

© 版权声明

相关文章