【新智元導讀】昨天的斯坦福炒蝦機器人,一日內爆紅中文互聯網。谷歌 DeepMind 今天也毫不示弱地放出了自家的家務機器人,端茶倒水擦桌子,也是樣樣拿手。網友稱,2024 年是妥妥的機器人年了。
火爆全網的斯坦福炒蝦機器人,一天之內人氣暴漲。
畢竟這樣能炒菜能洗碗的全能機器人,誰不想帶一個回家,把自己從家務中解放出來呢!
據說,這個項目是斯坦福華人團隊花了三個月的時間做出來的。
今天,團隊直接放出了更多細節。
這個機器人的技能多種多樣,令人眼花繚亂。
以前,聊天機器人愜意地吟詩作畫,人類苦逼地收拾打掃,這畫風怎么看怎么不對。
如今終于有人想起來了:機器人的一大任務,就該是幫人類干家務啊!
你還有什么驚喜是我們不知道的?
斯坦福的這個炒菜機器人,它還能 ——
澆花。
掃地。
煮咖啡。
幫主人刮胡子。
揪一片衛生紙,擦干凈桌子上的牛奶。
把洗碗機里的碗拿出來。
陪貓玩。
洗衣服(包括把一袋臟衣服倒進洗衣機、從袋子中拿出洗衣凝珠、擰開洗衣液倒進去、按下洗衣機按鈕等過程)。
推著小筐子收衣服。
整理床單、換枕套。
疊衣服(注意,它甚至還能完成拉拉鏈這種程度的精細操作)。
擰開瓶蓋,給工作中的主人送去一瓶啤酒。
跟主人道晚安,幫躺在床上的主人蓋好杯子。
最后,還有一個彩蛋:忙碌的一天結束后,機器人還會自己給自己充電,迎接元氣滿滿的一天,繼續為主人服務了!
擂臺對打,谷歌 DeepMind 機器人研究三連彈
谷歌 DeepMind 這邊,當然也不甘落后。
今天,谷歌 DeepMind 也官宣了一系列進展,就是為了能讓機器人技術在日常生活中幫助我們。
谷歌 DeepMind 的這個機器人,可以幫我們撿水果。
從抽屜里拿出一罐可樂。
幫我們擺好牙刷。
總之,斯坦福炒蝦機器人能做的,它也不差。
解決兩大關鍵挑戰
谷歌采用了 AutoRT、SARA-RT 和 RT-Trajectory 等技術,讓機器人能夠更快地做出決策,更好地理解環境,在環境中導航。
為了生產真正有能力的機器人,就必須解決兩個基本挑戰:
一個是提高它們將行為泛化到新情況的能力;第二個,就是提高它們的決策速度。
谷歌 DeepMind 團隊,在這兩個領域都進行了重大改進。
SARA-RT:讓機器人 Transformer 更高效首先,系統 SARA-RT 使用一種新穎的「向上訓練」方法,將機器人 Transformer 模型轉換為更高效的版本。
這樣,就降低了機器人部署所需的計算要求,在保持質量的同時,提高 了速度。
當研究者將 SARA-RT 應用于谷歌最先進的 RT-2 模型時,在獲得簡短的圖像歷史后,最佳版本的準確率提高了 10.6%,速度提高了 14%。
雖然 Transformer 很強大,但它們可能會受到計算需求的限制,這會減緩它們的決策速度。
Transformer 嚴重依賴于二次復雜度的注意力模塊。
這意味著,如果 RT 模型的輸入增加 1 倍,處理該輸入所需的計算資源就會增加 4 倍,從而導致決策速度減慢。
如上所述,SARA-RT「向上訓練」的方法來提高效率。「向上訓練」是將二次復雜度轉化為單純的線性復雜度,大大降低了計算要求。這種轉換不僅提高了原始模型的速度,而且還能保持其性能。
研究者表示,可以相信這是第一個可擴展的注意力機制,可以在不損失質量的情況下提供計算改進。
谷歌這一系統的設計是為了可用性,同時也希望更多的研究人員和從業者將其應用于機器人學和其他領域。
因為 SARA 提供了加速 Transformer 的通用方法,且不需要算力昂貴的預訓練,這種方法有助于擴大 Transformer 技術的使用。
與此同時,SARA-RT 不需要任何額外的代碼,因其可以使用各種開源的線性變量。
SARA-RT-2 模型用于操作任務,機器人的行動以圖像和文本命令為條件
SARA-RT 可以應用于各種 Transformer 模型。比如,將 SARA-RT 應用于點云 Transformer,用于處理機器人深度攝像頭的空間數據,并且速度提高了一倍多。
RT-Trajectory:讓機器人學會泛化第二,RT-Trajectory 模型通過自動將描述機器人運動的視覺輪廓添加到其訓練中,來學習如何遵循指令。
要知道,人類可以很直觀地理解該如何擦桌子,但機器人,則需要通過多種方式,將指令轉化為實際的身體動作。
這個 RT-Trajectory 模型,可以在訓練數據集中獲取每個視頻,并在執行任務時將其與機械臂抓手的 2D 軌跡草圖疊加在一起。
這樣,這些軌跡就以 RGB 圖像的形式,在模型學習其機器人控制策略時,為它提供了低級的、實用的視覺提示。
它還可以通過觀看人工演示、理解草圖甚至 VLM 生成的圖紙來創建軌跡。
當對訓練數據中看不見的 41 項任務進行測試時,由 RT-Trajectory 控制的手臂取得了 63% 的成功率。
傳統上,訓練機械臂依賴于將抽象的自然語言(「擦桌子」)映射到特定的動作(關閉抓手、向左移動、向右移動),這使得模型很難推廣到新的任務。
相比之下,RT-Trajectory 模型使 RT 模型能夠通過解釋特定的機器人運動(如視頻或草圖中包含的運動),來理解完成任務時應該「如何做」。
這個系統的用途很廣泛,它還可以通過觀看所需任務的人類演示來創建軌跡,甚至可以接受手繪草圖。
它可以很容易地適應不同的機器人平臺。
AutoRT:大模型訓練機器人第三,AutoRT 利用基礎模型的強大功能來創建一個系統,該系統可以理解人類的實際目標,并使機器人能夠在新環境中收集訓練數據。
這可以幫助擴展機器人的學習范圍。
AutoRT 將基礎模型(如 LLM、VLM)與機器人控制模型(RT-1、RT-2)相結合,以創建一個可以部署機器人在新環境中收集訓練數據的系統。
AutoRT 可以同時指揮多個機器人,每個機器人都配備了一個攝像頭,以及一個末端執行器,在一系列設置中執行不同的任務。
在這個過程中,系統首先使用的是 VLM,來了解其周圍環境。
(1) 自主輪式機器人發現有多個對象的位置。(2) VLM 向 LLM 描述場景和對象。(3) LLM 建議機器人執行不同的操作任務,并在做出選擇之前決定機器人可以在沒有輔助的情況下完成哪些任務,哪些任務需要人類遠程控制,哪些任務不可能完成。(4) 嘗試所選任務,收集經驗數據,并對數據的多樣性 / 新穎性進行評分。以此往復。
接下來,LLM 為每個機器人提出創造性的任務,并選擇他們應該執行的任務。
在 7 個月的評估中,AutoRT 安全地同時協調了多達 20 個機器人,讓它們有條不紊地穿梭在各個辦公室。
不過,有一個關鍵問題:怎么確保機器人一定會保護人類的安全呢?
首先,AutoRT 就具有安全護欄,能夠為基于 LLM 的決策者提供「機器人憲法」。在為機器人選擇任務時,必須遵守這些安全提示。
這個「機器人憲法「,一定程度上受到了阿西莫夫機器人三定律的啟發。首先,機器人不得傷害人類。另外,機器人也不得嘗試涉及人類、動物、尖銳物體或電器的任務。
不過,這也不能保證安全性,因此,AutoRT 系統由經典機器人技術的使用安全措施組成。
比如,通過編程可以設定,如果機器人關節上的力超過給定閾值,就會自動自動停止。
并且,所有活動機器人都必須通過物理停用機關,保持在人類主管的視線范圍內。
網友:今年是機器人的爆發年
2024 年開局第一周,各種機器人研究就開始大爆發,讓每個人為之興奮。
一邊是斯坦福代表著學術界的機器人成果,另一邊是谷歌帶著工業界的成果,雙雙亮相。
網友稱,機器人和人工智能智能體今年開局強勁。為接下來的幾個月做好準備。
還有人將這周,稱為「機器人周」。
我認為,在未來 2 年的某個時候,人工智能和機器人技術的交叉,將同生成式 AI 一樣爆炸。
「ChatGPT」時刻即將來臨。
英偉達高級科學家 Jim Fan 表示 ——
2024 年是機器人年。
Mobile-Aloha 是一個開源的機器人硬件,它可以靈活地完成雙手任務,比如做飯(人類遠程操控)。很快,硬件將不再是我們實現人類級別的機器人的瓶頸,而是「大腦」。
這項工作是由 3 名研究人員用學術預算完成的。多么令人難以置信的工作!斯坦福大學太棒了!
由于資源限制,學術界不再是最前沿的 LLM 的發源地。但至少在短期內,機器人技術讓學術界和產業界的競爭環境更加公平。
硬件價格更實惠是必然趨勢。給有抱負的博士生的建議:擁抱機器人,至少人沒有那么多,更有空間發揮實力。
不知道,接下來幾個月里,機器人領域還會有怎樣的驚喜等著我們。
參考資料:
https://twitter.com/GoogleDeepMind/status/1742932234892644674https://deepmind.google/discover/blog/shaping-the-future-of-advanced-robotics/?utm_source=twitter&utm_medium=social
https://twitter.com/zipengfu/status/1742973258528612724
本文來自微信公眾號:新智元 (ID:AI_era)
本文鏈接:http://www.tebozhan.com/showinfo-45-3197-0.html谷歌家務機器人單挑斯坦福炒蝦機器人!端茶倒水逗貓,連甩三連彈開打
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com