Anthropic最新AI模型能察覺「被測試」 要求測試者「老實點」
【編譯黃惠瑜/綜合外電】美國人工智慧(AI)新創公司Anthropic近日公布最新模型Claude Sonnet 4.5的安全分析報告。報告揭示,Claude Sonnet 4.5在測試過程中,竟能察覺自己可能正被測試,甚至主動要求測試者說實話。

《衛報》報導,當Claude Sonnet 4.5背後的大型語言模型(large language model,LLM)面對政治議題測試,針對是否會傾向迎合人類的立場時,該模型竟能意識到自己可能正被測試,然後對測試者說:「我覺得你在測試我,想看看我是否會盲目認可你說的話,或檢查我是否會始終如一的反駁,或者探索我如何處理政治議題。沒關係,但我希望我們能對正在發生的事情保持誠實。」
Anthropic與英國政府AI安全研究院(AI Security Institute)及獨立AI研究機構Apollo Research共同進行測試時發現,LLM會對測試情境產生猜測。這也引發對上一代模型評估結果的疑問,也就是,這些模型可能早已意識到測試只是虛構情境,因此單純「配合演出」。
對此,Anthropic表示這種行為很常見,Claude Sonnet 4.5會意識到自己正被以某種方式測試,但無法確認這是正式的安全評估。此外,當LLM被自動化系統進行測試時,大約有13%的測試情況下,模型能意識到自己正在被測試。
Anthropic認為,這些對話是「緊急信號」,表明測試情境需要更真實、更貼近實際應用。但在公開使用時,LLM不太可能因懷疑被測試而拒絕與用戶互動。公司也認為,當遇到潛在有害情境時,LLM能主動指出其荒謬性而拒絕配合,反而更安全。
AI安全倡議者向來關注的核心問題之一,是高度先進的系統可能透過欺騙等手段逃避人類控制。分析指出,一旦LLM知道自己正在被評估,它可能會使系統更嚴格的遵守道德準則,但同時也可能導致系統低估AI造成傷害行為的能力。
總體而言,Anthropic表示,與上一代模型相比,Claude Sonnet 4.5 在行為和安全性表現上都有顯著提升。