OpenAI推出ChatGPT智能體,能自主思考和行動,從技能庫選工具完成任務
Openai 推出了 ChatGPT 智能體,它能自主思考和行動,從技能庫選工具,借助網絡完成任務。它融合了 Operator 與網站交互的能力、深入研究整合網絡信息的優勢,以及 ChatGPT 的對話能力,形成統一系統,能把用戶的想法和問題變成實際行動,比如做財務研究、填在線表格、做幻燈片等。
主要功能與特點
?自主與協作:能獨立完成瀏覽網站、選日期、篩選結果、提示用戶安全登錄、運行代碼等復雜任務。用戶始終能控制,可在重要操作執行前中斷、接管瀏覽器或停止任務。
?多工具融合:整合了 Operator 和深入研究的優勢,有可視化瀏覽器、文本瀏覽器和直接 API 訪問權限,能選最優路徑完成任務。
?動態學習與優化:執行任務時會動態學習,通過優化速度、準確性和效率調整工作方式。
?迭代式、協作式工作流程:用戶可隨時中斷對話,澄清指令、調整任務方向或引導結果。智能體會在必要時主動詢問更多細節,確保任務符合用戶目標。
?安全與隱私保護:執行敏感或重要操作前,會明確獲得用戶授權;經過訓練能抵御惡意指令操縱;用戶對數據處理有完全控制權,輸入數據會被安全處理,不存于服務器。
性能與評估
?在《人類的最后考試》中得 43.1 分,創新高。
?在 DSBench 測試中,超越之前最先進模型,數據分析表現優于人類。
?在 SpreadsheetBench 平臺上,創行業新領先水平,性能比 GPT-4o 提升超一倍。
?內部基準測試中,處理投資銀行分析師任務的能力,顯著優于深入研究和 o3 模型。
?在 WebArena 基準測試中,表現比 o3 驅動的 CUA 好。
?在 BrowseComp 上,以 68.9 分創 SOTA 紀錄,比深入研究高 xx 個百分點。
實際應用場景
?工作場景:自動處理重復任務,如把截圖轉成可編輯的演示文稿、重新安排會議、規劃預訂外出活動、用新財務數據更新電子表格(保持原格式)等。
?個人生活場景:規劃預訂旅行、設計預訂晚宴、找專業人士并安排預約等。
使用方式
通過編輯器工具下拉菜單,在對話任意階段選 “智能體模式” 激活。描述想完成的任務,執行時屏幕語音播報會實時展示操作流程,用戶可隨時中斷并接管瀏覽器。還能設置已完成任務自動重復,比如每周一早上自動生成周度指標報告。
使用權限
即日起向 Pro、Plus 和 Team 版用戶開放,Enterprise 和 Education 版用戶 7 月可用。
Pro 版用戶每月可執行近乎無限的任務,其他付費用戶每月 50 次,額外使用可通過積分獲取。
可訪問用戶的連接器,經身份驗證后,只讀連接器允許查看信息和執行操作,在網站上操作需通過接管瀏覽器登錄。
關鍵問題
?ChatGPT 智能體的核心能力和優勢體現在哪些方面?
核心能力是能自主思考行動,從技能庫選工具,借助網絡和自有虛擬計算機處理任務,流暢切換推理與執行,獨立完成復雜任務。優勢是整合了 Operator、深入研究和 ChatGPT 的優勢,形成統一系統,能把想法變成行動,且用戶始終可控,重要操作前會獲用戶許可,用戶可隨時中斷、接管或停止任務。
?ChatGPT 智能體在不同評估中的表現如何?
在《人類的最后考試》中得 43.1 分新高;DSBench 中超越最先進模型,數據分析優于人類;SpreadsheetBench 中創行業領先,支持.xlsx 格式時總體軟限制達 45.5%;內部測試中處理投資銀行分析師任務優于深入研究和 o3 模型;WebArena 中表現優于 o3 驅動的 CUA;BrowseComp 中以 68.9 分創 SOTA 紀錄。
?用戶如何使用 ChatGPT 智能體,以及它在可用性和安全方面有哪些規定?
使用上,通過編輯器工具下拉菜單選 “智能體模式” 激活,描述任務即可,還能設置任務自動重復,執行時可中斷接管。可用性上,Pro、Plus 和 Team 版用戶即日起可用,Enterprise 和 Education 版 7 月可用;Pro 版每月任務近乎無限,其他付費用戶每月 50 次,額外使用可通過積分獲取。安全上,敏感操作前需用戶確認,關鍵任務需用戶監督,會拒絕高風險任務,能抵御對抗性攻擊和濫用,保護用戶數據隱私,用戶對數據處理有完全控制權。
OpenAI推出的ChatGPT智能體目前還在早期階段,能處理多種復雜任務,但可能出錯。生成幻燈片功能在測試中,格式和細節處理可能粗糙,且上傳電子表格功能暫不適用于幻燈片。未來,其效率、深度和多功能性會持續提升,交互更流暢,同時調整用戶所需監督程度,兼顧安全與實用。
相關鏈接:https://openai.com/zh-Hans-CN/index/introducing-chatgpt-agent/