OpenAI推最強模型GPT-5.4正式登場　專業知識工作表現接近人類專家

財經

記者 CC

發布 2026/03/06 09:54

#科技新知

【財經中心╱台北報導】OpenAI今天正式發布GPT-5.4系列模型，包括針對ChatGPT和API的GPT-5.4 Thinking版本，以及因應複雜任務的GPT-5.4 Pro 版本。

本文大綱

GPT-5.4支援高達100萬tokens的上下文窗口
GPT-5.4在電腦使用基準測試中表現優異

這是OpenAI首次將前沿推理、編碼和智能體能力整合至單一模型中，主要在提升專業工作的效率和準確性。

在ChatGPT中，GPT-5.4 Thinking新增「思考流程預覽」功能，模型會在處理複雜查詢時預先展示其推理思路，使用者可在模型回應過程中即時調整方向，進而減少來回溝通，更快獲得符合需求的結果，該功能已在網頁版和Android應用程式上線，iOS版本即將推出。

新模型也增強深度網路研究能力，特別是在處理高度具體的查詢時，能夠更好地維持長上下文連貫性。對於需要較長時間思考的問題，GPT-5.4 Thinking可維持對對話前序步驟的更強意識，確保答案在整個過程中保持相關性和連貫性。

GPT-5.4支援高達100萬tokens的上下文窗口

GPT-5.4系列模型支援高達100萬tokens的上下文窗口，使智能體能夠規劃、執行和驗證長週期任務。

IT之家報導，據介紹，GPT-5.4在專業工作領域實現大幅突破。在OpenAI所測試的44個職業領域的GDPval基準中，GPT-5.4在83.0%項目上可達到或超過行業專業水準，前代GPT-5.2為70.9%。

在內部投行級電子表格建模任務測驗中，GPT-5.4的平均得分為87.3%，遠高於GPT-5.2 的68.4%。在簡報評估中，評審者更偏好GPT-5.4產生的簡報（68.0% vs. GPT-5.2 的32.0%），主要優勢在於更強的美學設計、更豐富的視覺變化以及更有效的影像生成運用。

在減少錯誤方面，GPT-5.4已成為OpenAI迄今為止最「 factual」的模型。相較於GPT-5.2，其單一陳述的錯誤率降低33%，完整回答中出現任一錯誤的可能性降低18%。

GPT-5.4在電腦使用基準測試中表現優異

GPT-5.4在電腦使用基準測試中表現優異。在OSWorld-Verified基準（透過截圖和鍵盤滑鼠操作PC桌面環境）上，GPT-5.4實現75.0%的成功率，遠遠超過GPT-5.2的47.3%，甚至超過人類表現（72.4%）。

視覺感知能力，GPT-5.4在MMMU-Pro視覺理解與推理測驗中取得81.2%的成功率，優於GPT-5.2的79.5%。在OmniDocBench文件解析測試中，GPT-5.4平均錯誤率降至0.109（GPT-5.2 為0.140）。

5.4新增的「工具搜尋」（tool search）功能，使該系列模型能夠有效率地處理各種工具。在Scale的MCP Atlas基準測試中，啟用工具搜尋後，在維持相同準確率的前提下，其總token消耗量減少47%。同時，GPT-5.4在Toolathlon基準（測試智能體使用真實世界工具和API 完成多步驟任務的能力）上，它也能用更少的互動輪次實現更高準確率。

GPT-5.4 Thinking即日起對ChatGPT Plus、Team和Pro用戶開放，取代GPT-5.2 Thinking。 GPT-5.2 Thinking將在模型選擇器的「遺留模型」部分保留3個月，直到今年6月5日退役。 Enterprise和Edu計劃使用者可透過管理員設定啟用早期存取。 GPT-5.4 Pro開放給Pro和Enterprise計劃用戶。