廣告

顛覆AI常識!Anthropic研究:模型思考越久恐越蠢 企業應用應更謹慎

國際 寰宇要聞
2025/07/23 19:48
黃惠瑜 文章
分享 分享 連結 APP

【編譯黃惠瑜/綜合外電】人工智慧(AI)公司Anthropic最新一項研究發現,當AI模型花更多時間「思考」問題,不一定會表現得更好,甚至在某些情況下,表現會明顯變差。這項研究結果也挑戰了目前推動AI產業發展的一個核心假設。

Anthropic官網與手機上的應用程式。美聯社 zoomin
Anthropic官網與手機上的應用程式。美聯社

舊金山知名科技網站VentureBeat周二(7/22)報導,一項由Anthropic的AI安全研究員格瑪(Aryo Pradipta Gema)及其他公司的研究人員主導的研究發現,延長大型語言模型(LLM)的推理時間,反而會讓它們在多種類型任務上的表現變差。

近來大型推理模型(LRMs)的進展顯示,讓大型語言模型透過推理模式思考久一點,就能提升模型的效能與穩定性。然而,這項新研究卻推翻了這種看法,並指出由於大型推理模型容易「過度思考」,導致在瑣碎的問題上過度運算。

研究團隊在周二發表的論文中表示,「我們構建了一些評估任務,其中延長大型推理模型的推理長度反而會降低其性能」。換句話說,當AI模型在執行任務時,讓它花費越多的運算時間去進行推理,它的準確度反而會下降,而非提高。

研究指出,以Anthropic旗下Claude模型測試結果為例,當推理時間拉長時,會越來越容易被不相關的資訊干擾。而OpenAI的o系列模型雖然能抵抗干擾,但卻會過於執著於問題的表達形式。

例如,當被問到「你有一個蘋果和一個橘子,所以你總共有多少個水果?」時,在複雜的數學干擾項目背景下,Claude模型會隨著推理時間的增加,越來越被無關緊要的細節干擾,有時甚至無法給出「2個」這麼簡單的答案。

其它AI模型推理越久會出現的錯誤還包括:從合理的初始判斷,轉向偽造的關聯;無法持續專注在複雜的演繹推理任務上;放大模型本身某些令人擔憂的特定行為,例如Claude Sonnet 4展現出自我保護的行為。

研究人員總結表示,儘管增加運算量能讓AI變得更好,但也可能在無意中,讓AI某些有問題的模式變得更嚴重。

對企業決策者來說,其影響意義重大。部署AI系統執行關鍵推理任務的企業組織,可能需要更謹慎的調整分配給AI的思考時間,而非一味認為時間拉越長、思考得越久就一定越好。

下載知新聞APP

⭐️ 即刻下載《知新聞》App!免費!

# AI # Anthropic # 推理模型 # Claude # OpenAI