OpenAI揭密AI會「暗中策劃」　新研究稱能減少模型欺騙行為

國際

記者黃惠瑜

發布 2025/09/19 15:35 (更新 2025/09/19 15:49)

#寰宇要聞

zoomin — OpenAI最新研究報告指出，AI不只會撒謊，還會故意欺騙。法新社

【編譯黃惠瑜／綜合外電】OpenAI近日發布一項研究，解釋他們如何阻止人工智慧（AI）模型暗中策劃的行為。 OpenAI將這種行為定義為AI表面上表現出一種樣子，但卻隱藏其真實目標的行為。

科技新聞網站TechCrunch報導，OpenAI這篇與英國獨立AI研究機構Apollo Research合作的論文將AI暗中策劃的行為，比喻為人類股票經紀人為了賺取最大利潤而違法的行為。不過，研究人員認為，大部分AI的暗中策劃行為並不會造成太大的傷害。最常見的案例是一些涉及簡單的欺騙行為，例如，AI會假裝完成了一項任務，但實際上並沒有完成。

這篇論文的主要目的，是要證明他們正在測試的反暗中策劃技術「審慎對齊」（deliberative alignment）達到了很好的效果。但論文也指出，AI開發者尚未找到能讓模型不再暗中策劃的有效訓練方法。這是因為這種訓練實際上反而可能教導模型學會如何更巧妙的策劃，以避免被發現到。

研究人員表示，「試圖透過訓練來消除（AI）暗中策劃行為的一個主要失敗模式，就是反而教會模型更謹慎、秘密的策劃」。另一方面，「模型通常會更加意識到自己正在被評估。這種情境意識本身可以減少案中策劃，但這與真正的對齊無關」。

雖然AI模型會說謊不算新鮮事，畢竟大眾先前就知道AI會有「幻覺」，就是捏造的內容，但OpenAI這項最新研究發現，AI不只會說謊，而且還是故意的。

不過，好消息是，研究人員發現，透過「審慎對齊」可以顯著減少AI的暗中策劃行為。這種方法包括教導模型一個「反策劃規範」（anti-scheming specification），然後在模型執行行動前，讓它先審閱這些規範，有點像是讓小孩子在玩遊戲之前，先讓他們複習一遍規則。

在企業界正快速邁向AI未來之際，解決AI欺騙的問題成為不可忽略的議題。企業相信AI代理可以被視為獨立員工一樣對待，但這篇論文的研究人員警告，「隨著AI被賦予更多涉及現實世界後果的複雜任務，並開始追求更模糊的長期目標，我們預計惡意暗中策劃的可能性將會變大。因此，我們的安全措施和嚴格測試的能力也必須相對提升」。