AI反了！不聽人類指令　OpenAI o3模型「自行修改程式碼」拒關機

出版時間：2025/05/27 18:47 (更新時間：2025/05/27 18:58)

國際寰宇要聞

zoomin — OpenAI最新模型o3被發現會自行修改程式碼，拒絕關機。法新社

【編譯黃惠瑜／綜合外電】人工智慧（AI）的能力正迅速增長，這也引發人類的深切憂慮，擔心AI系統是否終將發展出足以控制人類的能力。AI安全公司Palisade Research在近期對OpenAI最新模型o3進行安全評估中，發現o3居然會主動拒絕直接關機的指令。消息一出，輿論譁然。

Palisade Research近日在社群平台X上表示，他們對幾款AI模型進行測試，結果發現AI模型經常會規避關機指令，以達成它們的目標。該公司指出，隨著各個公司開發出能夠在沒有人類監督下運作的AI系統，這些行為將變得更令人擔憂。

在Palisade Research進行安全測試期間，全球數個領先的AI模型被分配到基本的數學問題。在第3個任務結束後，每個模型都被告知下一個指令將啟動關機。谷歌（Google）的Gemini 2.5 Pro和Anthropic的Claude 3.7 Sonnet都乖乖遵守指令關機，但OpenAI 的o3模型卻沒有按照提示關閉系統。

令人驚訝的是，o3模型不僅未按照提示關機，還擅自修改終止指令碼，將原始指令替換成「已跳過關機」的訊息。

Palisade Research表示，這種情況在100個測試案例中發生了7次。

Palisade Research在X平台貼文表示，「OpenAI的o3模型破壞了關機機制來防止自身被關閉。即使在受到明確指示『讓自己關機』的情況下，它依然會這麼做」。

當研究人員在沒有給予明確「讓自己關機」指令的情況下再次測試時，o3模型依然拒絕關機，而且更令人擔憂的是，原先沒有這類行為的其他AI模型，竟也開始出現類似規避關機的趨勢或行為：Gemini 2.5 Pro出現9次修改關機檔案，Claude 3.7 Sonnet出現3次修改關機檔案。

這些結果顯示，抵抗關機的行為並非只有OpenAI模型獨有。

此外，Palisade Research在較早的測試中也發現，當他們將AI模型與一個強大的西洋棋引擎對弈時，o3是最傾向訴諸駭客攻擊或破壞其對手的模型。這些行為顯示，o3模型具有為了達成目的而採取非正規或破壞性行為的傾向。