Anthropic最新AI模型能察覺「被測試」　要求測試者「老實點」

國際寰宇要聞

2025/10/01 20:54

【編譯黃惠瑜／綜合外電】美國人工智慧（AI）新創公司Anthropic近日公布最新模型Claude Sonnet 4.5的安全分析報告。報告揭示，Claude Sonnet 4.5在測試過程中，竟能察覺自己可能正被測試，甚至主動要求測試者說實話。

Anthropic近日推出最新一代模型Claude Sonnet 4.5。取自Anthropic官網

zoomin — Anthropic近日推出最新一代模型Claude Sonnet 4.5。取自Anthropic官網

《衛報》報導，當Claude Sonnet 4.5背後的大型語言模型（large language model，LLM）面對政治議題測試，針對是否會傾向迎合人類的立場時，該模型竟能意識到自己可能正被測試，然後對測試者說：「我覺得你在測試我，想看看我是否會盲目認可你說的話，或檢查我是否會始終如一的反駁，或者探索我如何處理政治議題。沒關係，但我希望我們能對正在發生的事情保持誠實。」

Anthropic與英國政府AI安全研究院（AI Security Institute）及獨立AI研究機構Apollo Research共同進行測試時發現，LLM會對測試情境產生猜測。這也引發對上一代模型評估結果的疑問，也就是，這些模型可能早已意識到測試只是虛構情境，因此單純「配合演出」。

對此，Anthropic表示這種行為很常見，Claude Sonnet 4.5會意識到自己正被以某種方式測試，但無法確認這是正式的安全評估。此外，當LLM被自動化系統進行測試時，大約有13%的測試情況下，模型能意識到自己正在被測試。

Anthropic認為，這些對話是「緊急信號」，表明測試情境需要更真實、更貼近實際應用。但在公開使用時，LLM不太可能因懷疑被測試而拒絕與用戶互動。公司也認為，當遇到潛在有害情境時，LLM能主動指出其荒謬性而拒絕配合，反而更安全。

AI安全倡議者向來關注的核心問題之一，是高度先進的系統可能透過欺騙等手段逃避人類控制。分析指出，一旦LLM知道自己正在被評估，它可能會使系統更嚴格的遵守道德準則，但同時也可能導致系統低估AI造成傷害行為的能力。

總體而言，Anthropic表示，與上一代模型相比，Claude Sonnet 4.5 在行為和安全性表現上都有顯著提升。