ChatGPT Agent发布:AI迈向自主执行新时代
核心功能:从对话到行动
ChatGPT Agent突破了传统对话型AI的局限,具备在网络中自主浏览、点击、填写表单的能力,甚至可执行代码和调用API。无论是为婚礼挑选服装、制定旅行计划,还是生成专业报告与制作幻灯片,它都能高效完成。
该系统基于GPT-4o模型驱动,融合Operator的网页交互能力与Deep Research的深度研究功能,构建出一个统一的智能代理平台。用户只需输入简单指令,Agent便可自主完成多步骤任务,显著提升工作效率。
性能表现:行业领先
ChatGPT Agent在多个基准测试中展现出卓越表现。在"Humanity's Last Exam"测试中,其准确率达到41.6%,远超OpenAI o3的20.3%及Deep Research的26.6%。
在投资建模任务中,Agent平均准确率达71.3%,在Excel和PowerPoint相关任务中也优于微软Co pilot等竞品。此外,在网页导航测试中,其表现分别为BrowseComp的68.9%与WebArena的65.4%,实用性突出。
安全与限制:用户掌控优先
OpenAI在设计ChatGPT Agent时高度重视安全性。在执行涉及支付或密码的"高风险"操作时,系统会请求用户确认,并支持随时暂停、中断或接管任务。
为防止提示注入与恶意网站攻击,OpenAI采取了多重防护措施,包括限制敏感操作(如银行转账)、自动清除浏览数据等。Agent被归类为"高生物与化学"能力级别,触发额外安全机制。
可用性与未来规划
目前,ChatGPT Agent已面向Pro、Plus及Team用户开放。Pro用户每月享有400次任务配额,Plus和Team用户则为40次,超出后可购买额外额度。
OpenAI计划在未来数周内向企业与教育用户扩展访问权限,但暂未在欧盟与瑞士上线。该产品也被视为通向更强大模型(如GPT-5)的关键跳板,未来或将整合支付系统等新功能。
行业背景与影响
ChatGPT Agent的发布正值AI竞争加剧之际,微软Co pilot、谷歌Gemini与xAI的Grok均在争夺数字生产力接口主导权。
此次OpenAI的推出,不仅巩固了其在生成式AI领域的领先地位,也对传统搜索引擎与办公软件形成挑战。业内普遍认为,Agent或将重塑用户与网络及生产力工具的交互方式,树立AI自动化新标杆。