當前位置：首頁 > 科技 > 測評

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

來源：責編：時間：2024-08-03 16:06:05 380觀看

導讀騰訊機器狗，登上了Nature子刊封面！在它的控制下，機器狗的動作和真實世界中的狗越來越像了。注意看，這里的兩只機器狗玩起了“定向越野”，還是帶追逐的那種。游戲當中，兩只機器狗分別要扮演

騰訊機器狗，登上了Nature子刊封面！

在它的控制下，機器狗的動作和真實世界中的狗越來越像了。

注意看，這里的兩只機器狗玩起了“定向越野”，還是帶追逐的那種。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

游戲當中，兩只機器狗分別要扮演追逐者和逃脫者，逃脫者需要在不被抓到的情況下到達指定位置。

一旦它到達了指定位置，兩只機器狗就會交換身份，如此來回進行，直到有一只被抓住。

這個游戲的一個難點在于有最大速度限制，兩只機器狗都不能單獨依靠速度取勝，必須規劃出一定策略。

甚至，還有更加困難的障礙賽，戰斗更加激烈、場面更加精彩。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

這場機器人越野大賽的背后，應用的正是這套全新的控制框架。

該框架采取了分層式策略，并運用生成式模型學習了動物的運動方式，訓練數據來自一只拉布拉多犬。

這套方法讓機器狗不再依賴物理模型或手工設計的獎勵函數，并能像動物一樣理解和適應更多的環境與任務。

像真的狗一樣運動

這只機器狗名叫MAX，重量為14kg，每條腿上有3個行動器，可提供平均22N·m的持續扭矩，最大能達到30N·m。

MAX的一大亮點，就是實現了對真實世界中狗的模仿。

在室內環境中，MAX掙脫了研究者，然后就開始了自由跑動。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

把MAX放到室外，它也能在草地上歡快地奔跑玩耍。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

當遇到有障礙的復雜地形時，這種模仿就更加惟妙惟肖了。

向上，MAX可以敏捷飛快地爬上樓梯。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

向下，它也能鉆過障礙物，擋在它前面的橫桿沒有被碰到一點。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

這一系列的動作背后，都是MAX的控制系統從一只拉布拉多的動作當中學習到的策略。

利用對真狗的模仿，MAX還能規劃更高級的策略，完成更為復雜的任務，前面展示的追逐大戰就是一個很好的例子。

值得一提的是，除了讓兩只機器狗相互競技之外，研究人員也通過手柄控制加入到了這場戰斗。

從畫面中不難看出，真人控制模式下的機器狗（下圖中1號），反而不如純機器方案（2號）來得靈活。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

最終的結果是，在開了掛（人類控制的機器狗最大限速更高）的情況下，人類仍然以0:2的比分徹底輸給了機器。

除了能讓機器狗靈活運動，該框架最大的優勢就是通用性，可以針對不同的任務場景和機器人形態進行預訓練和知識復用。

未來，團隊還計劃把該系統遷移至人形機器人和多智能體協作的場景。

所以，Robotics X實驗室的研究人員是如何打造出這套方案的呢？

加入生成式模型的分層框架

研究人員設計這套控制框架的核心思路，就是模仿真實動物的運動、感知和策略。

該框架通過構建可預訓練、可重用和可擴展的原始級、環境級和策略級知識，使機器人能夠像動物一樣從更廣泛的視角理解和適應環境與任務。

具體實現上，該框架也采用了分層式的控制方式，之中的三個層級——原始運動控制器（PMC）、環境適應控制器（EPMC）和策略控制器（SEPMC）——分別與原始級、環境級和策略級知識形成了對應。

首先，人類會發出一個高級的指令（比如告訴機器競速追逐游戲的規則和目標），這也是（運行過程）全程唯一需要人參與的地方。

這個高級指令會被SEPMC接收，并根據當前情況（如機器人角色、對手位置等）制定策略，然后生成包括移動方向、速度等信息的導航命令。

導航命令接下來會傳給EPMC，然后結合環境感知信息（如地形高度圖、深度信息等），選擇適當的運動模式，形成一個類別分布，同時選擇合適的離散潛在表示。

最后，PMC又把這種潛在表示與機器人當前的狀態（如關節位置、速度等）結合，得到電機控制信號，并最終交付執行。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

訓練的順序則剛好與之相反——從PMC開始，到SEPMC結束。

第一階段PMC的訓練，也就是原始級訓練，是為了建立基礎的運動能力。

該階段的訓練數據來自對一只訓練有素的中型拉布拉多犬的運動捕捉。

通過指導狗狗完成各種動作,作者收集了大約半小時的不同步態（如行走、奔跑、跳躍、坐下等）的運動序列，以每秒120幀的頻率采樣。

狗狗在捕捉過程中遵循直線、方形、圓形等不同的路徑軌跡。此外，作者還專門收集了約9分鐘的上下樓梯的運動數據。

為了彌合動物和機器人的骨骼結構差異，作者使用逆運動學方法將狗狗的關節運動數據重定向到機器人關節。

通過進一步的人工調整，最終得到了與四足機器人兼容的參考運動數據。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野
△資料圖，不代表訓練數據來源

基于這些數據，作者使用了生成式模型VQ-VAE編碼器來壓縮和表示動物的運動模式，構建了PMC的離散潛在空間。

通過向量量化技術，這些連續的潛在表示離散化為預定義的離散嵌入向量，解碼器則基于選定的離散嵌入和當前機器人狀態生成具體的運動控制信號。

在VQ-VAE的基礎上，PMC的訓練目標，是最小化生成的運動軌跡與參考軌跡之間的偏差。

同時，作者引入了優先級采樣機制，根據不同運動模式的難易程度動態調整其在訓練中的權重，確保網絡對所有參考數據都能很好地擬合。

通過不斷迭代和優化，PMC逐步學習到一組能夠有效表達復雜動物運動的離散表征，直至收斂。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

PMC階段的結果，為EPMC生成更高級別的運動控制信息提供了基礎。

EPMC在PMC的基礎上引入了環境感知模塊，接收來自視覺、雷達等傳感器的信息，使得策略網絡能夠根據當前環境狀態動態調整運動模式。

EPMC的核心是一個概率生成網絡，根據當前的感知信息和指令信號，在PMC提供的離散潛在空間上生成一個概率分布。

這個分布決定了應該激活哪些原始運動模式，以最好地適應當前環境和任務。

EPMC的訓練，通過最小化環境適應和任務完成的損失函數來實現，逐步學習優化運動策略，提高機器人的適應能力和魯棒性。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

最后的SEPMC訓練階段進一步提升了機器人的認知和規劃能力，使其能夠在多智能體交互環境中制定和執行高層策略。

SEPMC在EPMC的基礎上，根據當前的游戲狀態（如自身和對手位置等）和歷史交互記錄，生成高層的策略決策（如追逐、躲避）。

MAX機器人玩的追逐式定向越野游戲，也正是SEPMC的訓練方式。

在該階段，作者采用了先進的多智能體強化學習算法PFSP，通過自我博弈不斷提升機器人的策略水平。

訓練過程中，當前策略不斷與歷史上的強對手進行對抗，迫使其學習更加魯棒和高效的策略。

得益于前兩個階段打下的堅實基礎,這種復雜策略的學習是非常高效的，即使在稀疏獎勵的情況下也能快速收斂。

值得一提的是，這樣的多智能體方案當中，還可以引入一些模擬人類的智能體，從而實現機器間或人機間的協作配合。

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

以上的訓練過程都是在仿真環境中完成，然后以零樣本遷移到真實環境。

在仿真中，物理參數可以自由控制，作者隨機化了大量物理參數（包括負載、地形變化等），通過強化學習得到的策略必須能夠應對這些變化，得到穩定和通用的控制能力。

另外，作者在控制框架中的每一層都使用了LSTM，使得各個層級都具備一定的時序記憶和規劃能力。

傳感器方面，目前作者主要驗證了使用Motion Capture系統，或僅基于Depth Camera的視覺感知可以完成一系列復雜的任務。

為了處理更加開放和復雜的環境，作者未來將進一步整合LiDAR、Audio等感知輸入，進行多模態理解，更好的應對環境。

論文地址：https://www.nature.com/articles/s42256-024-00861-3

項目主頁：https://tencent-roboticsx.github.io/lifelike-agility-and-play/

本文鏈接：http://www.tebozhan.com/showinfo-25-105529-0.html比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：合資SUV白菜價！上汽大眾途岳推出8月購車優惠：10.99萬起

下一篇： iQOO Pad2評測：驍龍8sGen3加持游戲/影音大享受

標簽：

熱門焦點

Mate60手機殼曝光致敬自己的經典設計

8月3日消息，今天下午博主數碼閑聊站帶來了華為Mate60的第三方手機殼圖，可以讓我們在真機發布之前看看這款華為全新旗艦的大致輪廓。從曝光的圖片看，Mate 60背后攝像頭面積依然
8月總票房已突破10億！《封神》第一：口碑已經成了

8月5日消息，據燈塔專業版數據，截至8月5日9時35分，8月總票房（含預售）已突破10億。其中，《封神》以大比分的優勢領先。根據官方消息，目前該片總票房已經超過14.
如何通過Python線程池實現異步編程？

線程池的概念和基本原理線程池是一種并發處理機制，它可以在程序啟動時創建一組線程，并將它們置于等待任務的狀態。當任務到達時，線程池中的某個線程會被喚醒并執行任務，執行完任
每天一道面試題-CPU偽共享

前言：了不起：又到了每天一到面試題的時候了！學弟，最近學習的怎么樣啊了不起學弟：最近學習的還不錯，每天都在學習，每天都在進步！了不起：那你最近學習的什么呢？了不起學弟：最近在學習C
華為將推出盤古數字人大模型可幫助用戶12小時完成數字人生成

在今日舉行的2023年華為云數字文娛AI創新峰會上，華為云全球Marketing與銷售服務總裁石冀琳表示，華為云將在后續推出盤古數字人大模型，可幫助用戶12小
三星電子Q2營收60萬億韓元存儲業務營收同比仍下滑超過50%

7月27日消息，據外媒報道，從三星電子所發布的財報來看，他們主要利潤來源的存儲芯片業務在今年二季度仍不樂觀，營收同比仍在大幅下滑，所在的設備解決方案
三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

據官方此前宣布，三星將于7月26日也就是今天在韓國首爾舉辦Unpacked活動，屆時將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強5G Soc

去年底，iQOO推出了“電競旗艦”iQOO 11系列，作為一款性能強機，iQOO 11不僅全球首發2K 144Hz E6全感屏，搭載了第二代驍龍8平臺及144Hz電競屏，同時在快充
外交部：美方應停止在網絡安全問題上不負責任地指責他國

　中國外交部今天（16日）舉行例行記者會。會上，有記者問，美國情報官員稱，他們正在阻攔來自中國以及其他國家的黑客獲取相關科研成果。中方對此有何評論？對此

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

比真狗還狗！鵝廠機器狗登Nature子刊封面：可定向越野

Mate60手機殼曝光致敬自己的經典設計

8月總票房已突破10億！《封神》第一：口碑已經成了

如何通過Python線程池實現異步編程？

每天一道面試題-CPU偽共享

華為將推出盤古數字人大模型可幫助用戶12小時完成數字人生成

三星電子Q2營收60萬億韓元存儲業務營收同比仍下滑超過50%

三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強5G Soc

外交部：美方應停止在網絡安全問題上不負責任地指責他國

最新推薦

猜你喜歡

熱門推薦

相關資訊