廣告

OpenAI揭密AI會「暗中策劃」 新研究稱能減少模型欺騙行為

國際 寰宇要聞
2025/09/19 15:49
黃惠瑜 文章
分享 分享 連結 APP

【編譯黃惠瑜/綜合外電】OpenAI近日發布一項研究,解釋他們如何阻止人工智慧(AI)模型暗中策劃的行為。 OpenAI將這種行為定義為AI表面上表現出一種樣子,但卻隱藏其真實目標的行為。

OpenAI最新研究報告指出,AI不只會撒謊,還會故意欺騙。法新社 zoomin
OpenAI最新研究報告指出,AI不只會撒謊,還會故意欺騙。法新社

科技新聞網站TechCrunch報導,OpenAI這篇與英國獨立AI研究機構Apollo Research合作的論文將AI暗中策劃的行為,比喻為人類股票經紀人為了賺取最大利潤而違法的行為。不過,研究人員認為,大部分AI的暗中策劃行為並不會造成太大的傷害。最常見的案例是一些涉及簡單的欺騙行為,例如,AI會假裝完成了一項任務,但實際上並沒有完成。

這篇論文的主要目的,是要證明他們正在測試的反暗中策劃技術「審慎對齊」(deliberative alignment)達到了很好的效果。但論文也指出,AI開發者尚未找到能讓模型不再暗中策劃的有效訓練方法。這是因為這種訓練實際上反而可能教導模型學會如何更巧妙的策劃,以避免被發現到。

研究人員表示,「試圖透過訓練來消除(AI)暗中策劃行為的一個主要失敗模式,就是反而教會模型更謹慎、秘密的策劃」。另一方面,「模型通常會更加意識到自己正在被評估。這種情境意識本身可以減少案中策劃,但這與真正的對齊無關」。

雖然AI模型會說謊不算新鮮事,畢竟大眾先前就知道AI會有「幻覺」,就是捏造的內容,但OpenAI這項最新研究發現,AI不只會說謊,而且還是故意的。

不過,好消息是,研究人員發現,透過「審慎對齊」可以顯著減少AI的暗中策劃行為。這種方法包括教導模型一個「反策劃規範」(anti-scheming specification),然後在模型執行行動前,讓它先審閱這些規範,有點像是讓小孩子在玩遊戲之前,先讓他們複習一遍規則。

在企業界正快速邁向AI未來之際,解決AI欺騙的問題成為不可忽略的議題。企業相信AI代理可以被視為獨立員工一樣對待,但這篇論文的研究人員警告,「隨著AI被賦予更多涉及現實世界後果的複雜任務,並開始追求更模糊的長期目標,我們預計惡意暗中策劃的可能性將會變大。因此,我們的安全措施和嚴格測試的能力也必須相對提升」。

下載知新聞APP

⭐️ 即刻下載《知新聞》App!免費!

# OpenAI # AI # 審慎對齊 # AI對齊