地表最強程式設計AI Claude 4 系列登場 自動寫代碼7小時創世界紀錄
【財經中心/台北報導】Anthropic公司在台灣時間今天凌晨推出Claude Opus 4和Claude Sonnet 4新一代語言模型,在結構化推理、軟體工程和自主代理行為等領域出現重大進步。

可連續7小時代碼生成遠超過前一代
根據部落客文章介紹,Claude Opus 4被定位為Anthropic迄今最強大的模型,專為處理複雜的推理流程和軟體開發場景設計。
測試數據顯示,該模型在SWE-bench基準測試(評估模型解決真實GitHub 問題的能力)中準確率達到72.5%;在TerminalBench 測試(在多步驟終端程式碼產生任務中驗證模型表現)中準確率為43.2%。
IT之家引述報導指出,更令人矚目的是,Opus 4在軟體環境中展現出強大的自主行為,受惠於改進的記憶體管理、更廣泛的上下文保留以及更強大的內部規劃機制,據Rakuten測試數據,可連續進行近7小時的代碼生成和任務執行,刷新 AI 世界紀錄,遠遠超前代Claude 3 Opus(不到1 小時)。
AI模式是日常工作自動化的工具
Anthropic 聲稱,其AI模式不是為了消除工作職務,而是一種將日常工作自動化的工具。不過marktechpost媒體認為,Claude 4 系列問世後,將改變 AI的使用方式,讓 AI從完成單一任務的輔助工具,轉換為具備更強、更廣泛功能的「AI 同事」,可以自動完成幾乎一個完整的工作班次。
Claude Sonnet 4取代前代Claude 3.5 Sonnet,以更穩定的架構提升速度與質量,同時未顯著增加運算成本。此模型針對中規模部署最佳化,適合需要在成本與效能間權衡的場景。
儘管推理能力不如Opus 4,但Sonnet 4繼承許多架構升級,支援多檔案程式碼導航、中間工具使用和結構化文字處理,延遲表現更佳。它成為Claude.a免費用戶的預設模型,並透過API提供服務,適用於輕量開發工具、用戶助理和分析流程。
兩款模型均具備混合推理能力
兩款模型均具備混合推理能力,提供「快速模式」(Fast Mode)用於低延遲的簡短對話任務,以及「擴展思考模式」(Extended Thinking Mode)用於需要深度推理和多輪代理行為的複雜任務。
這種雙模式策略讓使用者能根據任務複雜度靈活分配運算資源。此外,Claude Opus 4和Sonnet 4可透過Anthropic的Claude API、Amazon Bedrock和Google Cloud Vertex AI等多個雲端平台訪問,支援從自主代理到程式碼分析等多種企業應用場景。