ITCOW牛新网 11月18日消息,埃隆・马斯克旗下的人工智能公司xAI于北京时间今日凌晨发布了新一代大语言模型Grok 4.1,并已面向grok、𝕏平台及移动应用(iOS和安卓)的所有用户全面推送。新模型在性能上实现重大突破,在LMArena大型语言模型竞技场的文本能力排行榜中,从之前的第33位跃升至第1位。

Grok 4.1

据了解,Grok 4.1的深度思考版本(代号quasarflux)以1483的Elo分数高居榜首,领先第二名达31分。其无需深度思考的”即时响应”版本也以1465的Elo分数位列第二,性能甚至超越了其他所有模型的”全推理”模式。这一成绩相较于前代Grok 4(排名第33位)实现了巨大飞跃。

Grok 4.1

除了在通用能力基准测试中表现出色,Grok 4.1在”软实力”方面也取得显著进步。在衡量模型情商的EQ-Bench3基准测试和评估创意能力的Creative Writing v3测试中,新模型均表现优异。在EQ-Bench3情感理解能力评测中,Grok 4.1的推理与非推理模式包揽了榜单前两名;在创意写作评估中,两种模式分别位列第二和第三。

Grok 4.1

另一项关键改进在于大幅降低了模型的”幻觉”率。xAI在Grok 4.1的训练后期,特别针对优化信息查询类提示,专注于减少事实性错误。根据对真实世界查询样本的评估,新模型的幻觉率已显著降低,从而为用户提供更可靠、更准确的信息。

Grok 4.1