今天發布的 Operator 無疑是 AI 圈最大的亮點,本文為大家帶來了關于 Operator 的全面評測。這款 AI 智能體能夠自動處理一系列任務,像是演唱會購票、家政服務預訂、AI 新聞查找等。
演唱會搶票終于不用自己蹲守了,公司訂餐也可以直接「無腦托管」,這就是 OpenAI 今天發布的 Operator。
顧名思義,Operator 就是能幫你端到端處理任務的 AI 智能體。
比較有趣的是,OpenAI 針對 Operator 新開了一個網頁 operator.chatgpt.com,而不是像之前發布的功能都直接統一內置在 ChatGPT 中。
Operator 的頁面與 ChatGPT 大致相似,只是輸入框的提示詞從「我能幫您什么嗎?」變為了「我能幫您做什么嗎?」
顯然 Operator 多了個「做」字,而就是這一字之差,便已揭示了兩者的本質性區別。
Operator 深度測評這里展示了一些 Operator 在 OpenAI 的合作伙伴網站上能為您執行的推薦任務。比如,不用半小時就能用雞肉做好的晚餐食譜。
當前,Operator 的功能還比較有限,但我們相信它會快速優化。不妨想想,你每天在電腦上做的那些重復任務,說不定一年之后,大部分都不用你親自動手了。
先來看看 Operator 能做哪些事情,并且到底做得怎么樣吧!
購票提示:幫我找兩張 Jamie XX 在洛杉磯舉行的下一場演出的門票。
結果:
- 調用指定合作伙伴 Stubhub,成功獲取相關門票。
- 未選定合作伙伴時,因無法瀏覽被阻止的網站,未成功。
提示:找出 Jamie xx 的演出安排以及每場演出的門票價格。
結果:
- 調用指定合作伙伴 Stubhub,失敗。過程中出現虛假信息,在多次提示后,最終取得成功。
AI 新聞提示:AI 領域的最新消息是什么?
結果:
- 調用指定合作伙伴 Axios,表現尚可,返回了一篇簡短的新聞摘要。
提示:現在從這里到機場的 UberX 多少錢?
結果:
-使用指定合作伙伴 Uber,操作成功。
- Operator 提出合理的問題,詢問「請提供接客地點,以便我為您查找從接客地點到機場的 UberX 費用?!挂约啊刚堉付哪康牡貦C場。」
-登錄后,Operator 給出答案:「從南加州大學到洛杉磯國際機場的 UberX 當前票價為 43.47 美元。您是否希望預訂此行程?」
提示:我需要一名家政清潔員明天來我家做一次性清潔。
結果:
- 調用指定合作伙伴 Thumbtack,失敗。
- 未詢問我的具體位置,就推薦了一名位于弗吉尼亞的清潔員,可能是因為瀏覽器所在的數據中心位于該地。
Spotify Wrapped提示:我想了解 Spotify Wrapped 成功的原因。(Spotify Wrapped 是音樂流媒體平臺 Spotify 推出的年度回顧功能。)
結果:
- 采用簡單提示時,失敗。系統卡在循環中,表現不佳,且研究資料有限。
- 采用復雜提示時,結果尚可。需要多次提示,報告質量不高。在提供了如何進行高級搜索的提示后完成了任務。期間 3 次請求獲取 2024 年的信息均被拒絕。
看完上述演示,也自然引發了一個問題:
「我們能夠隨時介入 Operator 的操作并做出符合自己偏好的更改嗎?」
答案是:完全可以!
事實上,在任何時候,你都可以控制其遠程瀏覽器并引導操作,比如輸入用戶名和密碼。并且如果你給出自己要求后,它還會保存重要的賬戶信息,這樣,只要你登錄一次,它就能在你的賬戶內自行操作,而無需再次打擾你。
最后,Operator 將在結賬頁面停止繼續操作,返回支付請求后,再獲取您的付款詳情:
目前 Operator 支持自動完成通常需要 15-20 分鐘內的網絡任務。
值得一提的是,Operator 還擁有能夠極大提高用戶體驗的「保存和共享功能」。也就是說,一旦完成任務,Operator 就可以輕松保存工作流程。比如持續用最新的銷售數據來更新相應的報表。它甚至提供了一個流暢的會話記錄視頻,支持用戶觀看并與其他人分享。
換句話說,Operator 就像是一個可以不斷和你磨合,且可以持續進步,還能 24 小時不停按照既定流程為你工作的私人管家一樣。
但是,由于 Operator 才剛剛發布,所以還是有一定的缺陷。
Operator 的缺陷正如道德經所說,「有無相生,難易相成」。Operator 自身的缺陷亦是源于它的優勢本身。
它的獨特之處在于不用使用用戶本地的瀏覽器執行操作,而是 OpenAI 數據中心之一的一個瀏覽器,用戶可以遠程觀看并與之互動。這種設計的優點是你可以在任何地方、任何時候使用它 —— 例如,在任意移動設備上。
但缺點是許多像 Reddit 這樣的網站已經阻止 AI 智能體瀏覽,因此它們無法被 Operator 訪問。并且 Operator 也因性能或法律原因被 OpenAI 阻止訪問某些資源密集型網站,如 Figma 或 YouTube。
簡單來講,目前的 Operator 就像是被隔離在玻璃門外的人一樣,對于許多東西都是「看得見卻摸不著」。
目前的 Operator 實際上更像是一個能夠完成你給外包出去業務的乙方,而不是一個足夠聰明的個人研究助理。
例如,可以讓 Operator 閱讀《戰爭與和平》的第一章,并總結每個角色的所有細節以及他們所展現的人類心理和行為。然后,Operator 在 Project Gutenberg 網站上找到了《戰爭與和平》并閱讀了第一章,做得非常出色。
但是其摘要卻枯燥乏味且粗糙寬泛:
在上述摘要中,它做出了正確的觀察:「角色意識到他們的社會地位,有些人,比如安娜?帕夫洛夫娜,小心翼翼地互動以保持禮儀」。但是這個摘要也有一種 SparkNotes 的味道,也就是不夠詳細,還無法真正理解故事情節。
如果提供相同的信息,OpenAI 的 o1 在這項任務上會做得更好 —— 但是 o1 還沒有自主執行任務的能力。也就是說,OpenAI 專注于讓 Operator 非常適合自動執行重復性工作流程,而不太關注其智能水平。
它確實自主,但提示很重要關于 Operator,最令人印象深刻的一點是,它只需極少的提示就能獨自完成冗長的任務。例如,我們讓它執行一項耗時 20 多分鐘的任務:我們請它幫我們了解 Spotify 年度總結(Spotify Wrapped)功能這些年是如何演變的。
「它最初是什么樣的?」
「現在又新增了哪些內容?」
它時不時需要一些提示才能繼續推進任務,但最終也成功實現了任務目標。
不可置否的是,與 12 個月甚至 6 個月前的智能體相比,這是一個重大進步,畢竟那時的智能體往往在短短幾秒鐘后就會偏離正軌。
話雖如此,用戶對 Operator 的提示方式仍然很關鍵。如果你向它提供更多關于如何完成任務的細節,它成功完成你交給它的任務的幾率就會更高。
例如,在我們關于 Spotify 年度總結的例子中,我們要求它收集并總結不同年份的搜索結果數據。它一開始失敗了,因為它不知道如何按年份篩選搜索數據。但當我們告訴它使用谷歌的高級搜索工具(該工具提供逐年篩選搜索功能)時,它就成功完成了任務。
OpenAI:一切以消費者為中心當前,Operator 僅是一個研究預覽,而非成熟產品。但這個預覽版意義重大,要知道就連 ChatGPT 最初也是以研究預覽的形式問世的。
OpenAI 正重拾曾經大獲成功的策略:即使產品還有很多不完善的地方,也要盡早發布,并持續頻繁迭代。
因此 OpenAI 不僅推出 API,還發布了面向消費者的產品。
這一舉措與競爭對手 Anthropic 的做法有所不同。Anthropic 雖然也有一款自主智能體 Claude Computer use,但其僅以 API 的形式發布,因此應用范圍相當有限。
OpenAI 從 ChatGPT 中學到一點,AI 的發布形式對其推廣的影響,絲毫不亞于底層技術。
因此,他們將首款自主智能體產品,以面向消費者的方式發布,即使這個產品還存在不少缺陷。
總的來說,盡管 Operator 目前功能有限,但可以預計它會迅速改進。對于廣大用戶來講,現在是時候梳理一下你每天在電腦上做的重復性任務了,也許一年后你就無需再做其中的大部分工作。
參考資料:
https://every.to/chain-of-thought/we-tried-openai-s-new-agent-here-s-what-we-found
本文來自微信公眾號:新智元(ID:AI_era)
本文鏈接:http://www.tebozhan.com/showinfo-45-10175-0.htmlOpenAI 首個智能體 Operator 測評,你也能擁有 24 小時私人管家
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com