廣告

OpenAI推史上最強ChatGPT智慧代理 可瀏覽網站、寫程式及作PPT

財經 科技新知
2025/07/18 09:51
CC 文章
分享 分享 連結 APP

【財經中心/台北報導】OpenAI今天凌晨宣布將在ChatGPT中推出一款通用型AI智慧代理,該公司表示該智慧代理可以幫助用戶完成各種基於電腦的任務。

OpenAI宣布推出史上最強ChatGPT智慧代理。照片來源OpenAI zoomin
OpenAI宣布推出史上最強ChatGPT智慧代理。照片來源OpenAI

OpenAI 介紹,該智慧代理可以自動生成可編輯的簡報和幻燈片、查看用戶的日曆來簡要介紹即將到來的客戶會議、計劃並購買製作早餐的食材,以及運行代碼等。

該工具名為ChatGPT agent,結合OpenAI之前多種智慧代理工具的功能,包括Operator點擊網站的能力,以及Deep Research從數十個網站中綜合資訊產生簡潔研究報告的能力。OpenAI表示,使用者只需透過自然語言提示ChatGPT即可與該智慧代理互動。

ChatGPT智慧代理由20~35人團隊開發

為了開發這個新工具,OpenAI將背後的Operator和Deep Research團隊合併為統一的團隊。外媒The Verge報導,這個新團隊由產品和研究部門共20~35人組成。

OpenAI表示,ChatGPT智慧代理比其之前的任何產品都要強大得多,可以存取ChatGPT連接器,允許用戶連接像Gmail和GitHub這樣的應用,智慧代理可以根據用戶的提示找到相關資訊。此外,OpenAI 表示ChatGPT智慧代理可以存取終端,並且可以使用API存取某些應用。

IT之家指出,根據OpenAI 的說法,ChatGPT 智慧代理的底層模型在多個基準測試中提供最先進的性能。ChatGPT智慧代理模型在Humanity's Last Exam(pass@1)中得分率為41.6%,這是一項由數千個問題組成、涵蓋超過100個學科的困難測試。這個分數大約是OpenAI o3 和o4-mini得分的2倍。

ChatGPT智慧代理存取工具遠優於o4-mini

在已知最難的數學基準測試之一FrontierMath 中,OpenAI 表示,當ChatGPT智慧代理可以存取工具(如用於代碼執行的終端)時,其得分為27.4%,之前的最佳分數來自o4-mini(得分僅為6.3%)。

在DSBench⁠測試中,該測試主要在評估智慧代理在涵蓋數據分析和建模等現實數據科學任務中的表現,ChatGPT智慧代理顯著超越之前的最先進模型—尤其在數據分析任務中,其表現明顯優於人類水準。

在內部基準測試中,該模型展現其處理投資銀行分析師(1 至3 年經驗)任務的能力,例如為《財富》500 強企業建立符合規範的財務報表模型(包括格式和引用),或為私有化交易建立槓桿收購模型。 ChatGPT智慧代理所採用的模型在該測試中顯著優於深入研究和o3 模型,每個任務均根據數百項與正確性和公式使用相關的標準進行評分。

下載知新聞APP

⭐️ 即刻下載《知新聞》App!免費!

# OpenAI # ChatGPT # 智慧代理 # AI