xAI发布Grok 4.1大语言模型：情商测试刷新纪录，24小时登顶LMArena排行榜

AI产品动态6个月前发布 AI视野

埃隆·马斯克旗下人工智能公司xAI于2025年11月17日发布新一代大语言模型Grok 4.1，该模型在发布后24小时内迅速登顶大型语言模型评测平台LMArena文本能力排行榜。其深度思考版本”Grok 4.1 Thinking”以1483 Elo分数位列榜首，较第二名Gemini 2.5 Pro领先31分，这一差距在Elo评分体系中已构成代际优势。值得注意的是，该模型的非推理快速响应版本同样以1465分位居第二，性能超越其他模型的完整推理模式。

技术突破方面，Grok 4.1在情感智能领域实现显著跃升。在EQ-Bench情商测试中，该模型以1586分刷新纪录，展现出卓越的情绪理解与共情能力。官方测试案例显示，面对用户”想念逝去宠物”的情感表达时，新模型能生成更具人性化的回应，而非程式化安慰。此外，其创意写作测试得分达1722分，较前代提升逾600分。

xAI采用创新研发策略，在正式发布前两周（11月1-14日）已通过静默推送进行大规模盲测。数据显示，64.78%的用户明确偏好新版本回答。模型在降低”幻觉”现象方面取得突破，事实性错误率从12.09%降至4.22%，降幅达三倍。目前该模型已通过grok.com、X平台及移动应用(iOS/Android)向全球用户免费开放，支持128K上下文长度，能更精准捕捉用户细微意图。

文章版权归作者所有，未经允许请勿转载。

xAI发布Grok 4.1大语言模型：情商测试刷新纪录，24小时登顶LMArena排行榜

国产AI大模型Kimi K2 Thinking接入Perplexity，多项性能超越GPT-5

蚂蚁集团发布全模态AI助手“灵光”，30秒生成可交互小程序

相关文章

谷歌Gemini Live重磅升级：实时画面提示+多应用整合，8月28日首发Pixel 10

IEEE报告：代理式AI将于2026年实现大众化普及，重塑劳动力市场与技能需求

谷歌TPU战略升级：联手云服务商挑战英伟达AI芯片霸主地位

阿里通义千问推出Qwen Chat桌面端应用，支持MCP跨应用调用

最新资讯

热门AI工具

热门资讯