NEWS

馬斯克xAI推Grok 4.1！登排行榜搶先　幻覺降低、EQ與創作能力全面提升

記者黃惠瑜

發布 2025/11/19 14:39

#寰宇要聞

zoomin — 馬斯克旗下xAI推出Grok 4.1，一推出即衝上榜單第一。法新社

【編譯黃惠瑜／綜合外電】就在科技巨頭谷歌（Google）即將推出其全新旗艦AI模型Gemini 3之際，馬斯克（Elon Musk）旗下xAI卻趁勢攪局，於17日晚間發布最新的大型語言模型Grok 4.1，隔空搶占媒體關注。在公開基準測試中，Grok 4.1更是一躍登上排行榜首位，表現優於來自Anthropic、OpenAI和谷歌Gemini 2.5 Pro等競爭對手的模型。

本文大綱

超強通用能力與排名戰
情緒智商與創意寫作
安全性與抵抗惡意攻擊的能力

📌 本文摘要重點 (這是什麼?)

1. Grok 4.1 在LMArena排行榜上，Thinking模式Elo成績達1483，短暫名列榜首。

2. Grok 4.1 EQ-Bench3測試得分1586，顯示情緒智商和人際互動能力提升。

3. Grok 4.1安全性強化，非推理模式幻覺率僅4.22%，且抵抗惡意攻擊能力出色。

Grok 4.1模型現已全面上線，消費者可透過Grok.com網站、社群網站X以及該公司的iOS和Android行動應用程式進行體驗。新模型在架構和實用性方面帶來重大提升，亮點包括：推理速度更快、情緒智商（EQ）大幅躍進，以及幻覺率顯著降低。此外，xAI 也公開發布模型的評估白皮書，並簡要說明訓練過程，展現出高度透明。

超強通用能力與排名戰

在LMArena的Text Arena中，Grok 4.1 Thinking模式（代號：quasarflux）原先以1483的Elo成績名列短暫名列排行榜榜首，但數小時後被谷歌發布的Gemini 3以1501的Elo成績超越。Grok 4.1的非推理模式（代號：tensor）不使用思考標記（tokens），就可立即給出回應，以1465 Elo的成績位居第2。

值得注意的是，Grok 4.1非推理模式的成績為1465，領先谷歌的 Gemini 2.5 Pro、Anthropic的Claude 4.5系列，以及OpenAI的 GPT-4.5預覽版。

Grok 4.1模型現已全面上線，消費者可透過Grok.com網站、社群網站X以及該公司的iOS和Android行動應用程式進行體驗。取自Grok官網

情緒智商與創意寫作

Grok 4.1在個性和人際互動能力方面也有明顯提升。在EQ-Bench3上拿到1586 Elo高分。

EQ-Bench是一項由大型語言模型評估的測試，主要衡量模型的情緒智商能力、理解力、洞察力、同理心和人際交往能力。測試集包含45個具有挑戰性的角色扮演場景，大部分場景由預先編寫的提示詞構成。基準測試會透過驗證模型對多個標準的回應來評估模型的性能。此外，基準測試還會進行兩兩比較，並回報排行榜上每個模型的Elo標準化分數。

在Creative Writing v3 基準測試上，Grok 4.1 Thinking模式比上一代Grok 3高出近600分。在這項基準測試中，模型需要對32個不同的寫作提示生成回應，每個提示進行3輪測試。與EQ-Bench類似，該模型根據評分標準以及和AI模型互相比較表現，最後得出的Elo分數來決定排名。