廣告

OpenAI推最強模型GPT-5.4正式登場 專業知識工作表現接近人類專家

OpenAI推出最強模型GPT-5.4。取自官網 zoomin
OpenAI推出最強模型GPT-5.4。取自官網
分享 分享 連結 訂閱 APP

【財經中心╱台北報導】OpenAI今天正式發布GPT-5.4系列模型,包括針對ChatGPT和API的GPT-5.4 Thinking版本,以及因應複雜任務的GPT-5.4 Pro 版本。

這是OpenAI首次將前沿推理、編碼和智能體能力整合至單一模型中,主要在提升專業工作的效率和準確性。

在ChatGPT中,GPT-5.4 Thinking新增「思考流程預覽」功能,模型會在處理複雜查詢時預先展示其推理思路,使用者可在模型回應過程中即時調整方向,進而減少來回溝通,更快獲得符合需求的結果,該功能已在網頁版和Android應用程式上線,iOS版本即將推出。

新模型也增強深度網路研究能力,特別是在處理高度具體的查詢時,能夠更好地維持長上下文連貫性。對於需要較長時間思考的問題,GPT-5.4 Thinking可維持對對話前序步驟的更強意識,確保答案在整個過程中保持相關性和連貫性。

GPT-5.4支援高達100萬tokens的上下文窗口

GPT-5.4系列模型支援高達100萬tokens的上下文窗口,使智能體能夠規劃、執行和驗證長週期任務。

IT之家報導,據介紹,GPT-5.4在專業工作領域實現大幅突破。在OpenAI所測試的44個職業領域的GDPval基準中,GPT-5.4在83.0%項目上可達到或超過行業專業水準,前代GPT-5.2為70.9%。

在內部投行級電子表格建模任務測驗中,GPT-5.4的平均得分為87.3%,遠高於GPT-5.2 的68.4%。在簡報評估中,評審者更偏好GPT-5.4產生的簡報(68.0% vs. GPT-5.2 的32.0%),主要優勢在於更強的美學設計、更豐富的視覺變化以及更有效的影像生成運用。

在減少錯誤方面,GPT-5.4已成為OpenAI迄今為止最「 factual」的模型。相較於GPT-5.2,其單一陳述的錯誤率降低33%,完整回答中出現任一錯誤的可能性降低18%。

GPT-5.4在電腦使用基準測試中表現優異

GPT-5.4在電腦使用基準測試中表現優異。在OSWorld-Verified基準(透過截圖和鍵盤滑鼠操作PC桌面環境)上,GPT-5.4實現75.0%的成功率,遠遠超過GPT-5.2的47.3%,甚至超過人類表現(72.4%)。

視覺感知能力,GPT-5.4在MMMU-Pro視覺理解與推理測驗中取得81.2%的成功率,優於GPT-5.2的79.5%。在OmniDocBench文件解析測試中,GPT-5.4平均錯誤率降至0.109(GPT-5.2 為0.140)。

5.4新增的「工具搜尋」(tool search)功能,使該系列模型能夠有效率地處理各種工具。在Scale的MCP Atlas基準測試中,啟用工具搜尋後,在維持相同準確率的前提下,其總token消耗量減少47%。同時,GPT-5.4在Toolathlon基準(測試智能體使用真實世界工具和API 完成多步驟任務的能力)上,它也能用更少的互動輪次實現更高準確率。

GPT-5.4 Thinking即日起對ChatGPT Plus、Team和Pro用戶開放,取代GPT-5.2 Thinking。 GPT-5.2 Thinking將在模型選擇器的「遺留模型」部分保留3個月,直到今年6月5日退役。 Enterprise和Edu計劃使用者可透過管理員設定啟用早期存取。 GPT-5.4 Pro開放給Pro和Enterprise計劃用戶。

知嚴選

⭐️ 即刻下載!無蓋版廣告純淨版《知新聞》App

# OpenAI # GPT-5.4 # ChatGPT # 大語言模型