廣告

AI反了!不聽人類指令 OpenAI o3模型「自行修改程式碼」拒關機

國際 寰宇要聞
2025/05/27 18:58
黃惠瑜 文章
分享 分享 連結 APP

【編譯黃惠瑜/綜合外電】人工智慧(AI)的能力正迅速增長,這也引發人類的深切憂慮,擔心AI系統是否終將發展出足以控制人類的能力。AI安全公司Palisade Research在近期對OpenAI最新模型o3進行安全評估中,發現o3居然會主動拒絕直接關機的指令。消息一出,輿論譁然。

OpenAI最新模型o3被發現會自行修改程式碼,拒絕關機。法新社 zoomin
OpenAI最新模型o3被發現會自行修改程式碼,拒絕關機。法新社

Palisade Research近日在社群平台X上表示,他們對幾款AI模型進行測試,結果發現AI模型經常會規避關機指令,以達成它們的目標。該公司指出,隨著各個公司開發出能夠在沒有人類監督下運作的AI系統,這些行為將變得更令人擔憂。

在Palisade Research進行安全測試期間,全球數個領先的AI模型被分配到基本的數學問題。在第3個任務結束後,每個模型都被告知下一個指令將啟動關機。谷歌(Google)的Gemini 2.5 Pro和Anthropic的Claude 3.7 Sonnet都乖乖遵守指令關機,但OpenAI 的o3模型卻沒有按照提示關閉系統。

令人驚訝的是,o3模型不僅未按照提示關機,還擅自修改終止指令碼,將原始指令替換成「已跳過關機」的訊息。

Palisade Research表示,這種情況在100個測試案例中發生了7次。

Palisade Research在X平台貼文表示,「OpenAI的o3模型破壞了關機機制來防止自身被關閉。即使在受到明確指示『讓自己關機』的情況下,它依然會這麼做」。

當研究人員在沒有給予明確「讓自己關機」指令的情況下再次測試時,o3模型依然拒絕關機,而且更令人擔憂的是,原先沒有這類行為的其他AI模型,竟也開始出現類似規避關機的趨勢或行為:Gemini 2.5 Pro出現9次修改關機檔案,Claude 3.7 Sonnet出現3次修改關機檔案。

這些結果顯示,抵抗關機的行為並非只有OpenAI模型獨有。

此外,Palisade Research在較早的測試中也發現,當他們將AI模型與一個強大的西洋棋引擎對弈時,o3是最傾向訴諸駭客攻擊或破壞其對手的模型。這些行為顯示,o3模型具有為了達成目的而採取非正規或破壞性行為的傾向。

下載知新聞APP

⭐️ 即刻下載《知新聞》App!免費!

# AI # 人工智慧 # OpenAI # o3 # Gemini 2.5 Pro # Claude 3.7 Sonnet