馬斯克xAI推Grok 4.1!登排行榜搶先 幻覺降低、EQ與創作能力全面提升
【編譯黃惠瑜/綜合外電】就在科技巨頭谷歌(Google)即將推出其全新旗艦AI模型Gemini 3之際,馬斯克(Elon Musk)旗下xAI卻趁勢攪局,於17日晚間發布最新的大型語言模型Grok 4.1,隔空搶占媒體關注。在公開基準測試中,Grok 4.1更是一躍登上排行榜首位,表現優於來自Anthropic、OpenAI和谷歌Gemini 2.5 Pro等競爭對手的模型。
Grok 4.1模型現已全面上線,消費者可透過Grok.com網站、社群網站X以及該公司的iOS和Android行動應用程式進行體驗。新模型在架構和實用性方面帶來重大提升,亮點包括:推理速度更快、情感智能(EQ)大幅躍進,以及幻覺率顯著降低。此外,xAI 也公開發布模型的評估白皮書,並簡要說明訓練過程,展現出高度透明。
超強通用能力與排名戰
在LMArena的Text Arena中,Grok 4.1 Thinking模式(代號:quasarflux)原先以1483的Elo成績名列短暫名列排行榜榜首,但數小時後被谷歌發布的Gemini 3以1501的Elo成績超越。Grok 4.1的非推理模式(代號:tensor)不使用思考標記(tokens),就可立即給出回應,以1465 Elo的成績位居第2。
值得注意的是,Grok 4.1非推理模式的成績為1465,領先谷歌的 Gemini 2.5 Pro、Anthropic的Claude 4.5系列,以及OpenAI的 GPT-4.5預覽版。
情緒智商與創意寫作
Grok 4.1在個性和人際互動能力方面也有明顯提升。在EQ-Bench3上拿到1586 Elo高分。
EQ-Bench是一項由大型語言模型評估的測試,主要衡量模型的情緒智商能力、理解力、洞察力、同理心和人際交往能力。測試集包含45個具有挑戰性的角色扮演場景,大部分場景由預先編寫的提示詞構成。基準測試會透過驗證模型對多個標準的回應來評估模型的性能。此外,基準測試還會進行兩兩比較,並回報排行榜上每個模型的Elo標準化分數。
在Creative Writing v3 基準測試上,Grok 4.1 Thinking模式比上一代Grok 3高出近600分。在這項基準測試中,模型需要對32個不同的寫作提示生成回應,每個提示進行3輪測試。與EQ-Bench類似,該模型根據評分標準以及和AI模型互相比較表現,最後得出的Elo分數來決定排名。
安全性與抵抗惡意攻擊的能力
作為其風險管理框架的一部分,xAI針對 Grok 4.1進行多項評估,包括拒絕回應行為、幻覺抵抗能力、諂媚傾向,以及雙重用途安全性。
在非推理模式下,Grok 4.1的幻覺率已從Grok 4 Fast的12.09%下降至僅4.22%,約提升65%。
Grok 4.1在FActScore(一項事實問答基準測試)上的得分下降到2.97%,相比早期版本的9.89%有明顯改善。
在抵抗惡意攻擊的能力方面,Grok 4.1接受包括提示注入攻擊(prompt injection attacks)、越獄提示(jailbreak prompts),以及敏感的化學和生物問題的測試。
安全過濾器表現出極低的誤報率,尤其是在受限化學知識(0.00%)和受限生物學查詢(0.03%)方面表現出色。
此外,Grok 4.1在說服性基準測試中抵抗操縱的能力也表現穩健,作為攻擊者時成功率為0%。
