擁有43個(gè)自由度的“青龍”,代表了目前人形機(jī)器人行業(yè)比較頂尖的硬件設(shè)計(jì)水平
“‘青龍’平臺(tái)的核心技術(shù)經(jīng)過了十多年的技術(shù)沉淀,標(biāo)志著我們的人形機(jī)器人平臺(tái)技術(shù)實(shí)現(xiàn)從無到有的突破。”
文 |《瞭望》新聞周刊記者 董雪 龔雯 實(shí)習(xí)生 宮雅婷
“你好,我是青龍人形智能機(jī)器人,能幫你做家務(wù)。”
“你看桌面上有什么?”
“我看看。桌面上有三個(gè)面包、兩個(gè)水果。”
“你幫我清理一下吧。”
“好的,正在為您整理中,我先把面包和水果分類擺放。”
說話間,身高1米85、體重80公斤的“青龍”看向桌面,依次拿起面包和水果,分類放入筐中。現(xiàn)場(chǎng)展示了行走、對(duì)話、做家務(wù)等能力。
在2024世界人工智能大會(huì)上,全球首款通用人形機(jī)器人開源公版機(jī)“青龍”驚艷亮相。“我們看到,人形機(jī)器人可以通過語言信息理解人的意圖,根據(jù)現(xiàn)場(chǎng)環(huán)境做出綜合判斷并執(zhí)行任務(wù)。”現(xiàn)場(chǎng)工作人員介紹,這個(gè)任務(wù)看似簡(jiǎn)單,實(shí)際上體現(xiàn)了“大小腦”的感知、規(guī)劃、決策以及控制能力,代表了國(guó)內(nèi)人形機(jī)器人技術(shù)的領(lǐng)先水平。
“青龍”由國(guó)家地方共建人形機(jī)器人創(chuàng)新中心(以下簡(jiǎn)稱中心)打造,該中心于今年5月,由工業(yè)和信息化部和上海市政府共同授牌,落戶浦東。中心科研團(tuán)隊(duì)碩博士占比約80%,研究團(tuán)隊(duì)長(zhǎng)期從事人形機(jī)器人領(lǐng)域技術(shù)研究與軟硬件研發(fā)。
擁有43個(gè)自由度的“青龍”,代表了目前人形機(jī)器人行業(yè)比較頂尖的硬件設(shè)計(jì)水平。“青龍”不僅在硬件參數(shù)上達(dá)到了國(guó)際領(lǐng)先水平,更在具身智能技術(shù)的集成與應(yīng)用上展現(xiàn)出了特有的優(yōu)勢(shì)。“‘青龍’包含人形機(jī)器人平臺(tái)技術(shù)、具身智能、數(shù)據(jù)集和智能訓(xùn)練場(chǎng)四大技術(shù)板塊,我們已經(jīng)進(jìn)行了開源,希望更多人參與到人形機(jī)器人的技術(shù)創(chuàng)新中來。”中心首席科學(xué)家江磊說。
近日,《瞭望》新聞周刊記者走近“青龍”,與科研團(tuán)隊(duì)對(duì)話,看如何打造和訓(xùn)練一個(gè)“優(yōu)秀”的人形機(jī)器人。
機(jī)械軀體:人形機(jī)器人的“骨肉”
“平臺(tái)技術(shù)可以簡(jiǎn)單理解為機(jī)械軀體,是人形機(jī)器人的基礎(chǔ),包含行走與驅(qū)動(dòng)系統(tǒng)、操縱與作業(yè)系統(tǒng)、感知與控制系統(tǒng)三大模塊。”中心機(jī)器人平臺(tái)技術(shù)負(fù)責(zé)人梁振杰介紹說。
本刊記者在現(xiàn)場(chǎng)看到,“青龍”一步一步走上講臺(tái),然后停下來向觀眾揮手打招呼,它走路的速度不算快,但步伐足夠穩(wěn)健,軀體結(jié)構(gòu)與人體類似。
梁振杰介紹,“青龍”全身集成了43個(gè)主動(dòng)自由度,實(shí)現(xiàn)從頭部到手部、臂部、腿部、腰部和踝部的全尺寸設(shè)計(jì)。關(guān)節(jié)模組是軀體結(jié)構(gòu)的核心組成單元,它一共搭載了10種、31個(gè)關(guān)節(jié),最大關(guān)節(jié)扭矩達(dá)到396Nm,峰值扭矩密度實(shí)現(xiàn)了200Nm/kg,用以實(shí)現(xiàn)高強(qiáng)度動(dòng)力輸出。
雙足負(fù)責(zé)行走,雙臂執(zhí)行作業(yè)。梁振杰說,“青龍”的腿部系統(tǒng)追求輕量化、高剛度和低慣量,搭載了高扭矩密度的軸向電機(jī),以此保障它在復(fù)雜地形中的穩(wěn)態(tài)行走能力。其上肢配備了7自由度的機(jī)械臂與集成觸覺感知的五指靈巧手,為完成精細(xì)操作和復(fù)雜任務(wù)提供了硬件基礎(chǔ)。
在動(dòng)力和電源管理方面,“青龍”搭載了有能量回收系統(tǒng)和輸出穩(wěn)壓管理的電源系統(tǒng),可以支持其在復(fù)雜工況下持續(xù)運(yùn)行3小時(shí)至4小時(shí)。
“青龍”搭載了算力可達(dá)400TOPS的控制器和豐富的外部接口,用以滿足人形機(jī)器人產(chǎn)品以及常規(guī)外部設(shè)備的使用要求。400TOPS意味著控制器每秒可以進(jìn)行400萬億次操作,是當(dāng)前非常強(qiáng)大的算力,能支持復(fù)雜的AI應(yīng)用和高級(jí)別的自動(dòng)駕駛功能。
平臺(tái)整體集成了“視、聽、觸、嗅、動(dòng)”五感融合設(shè)計(jì),使人形機(jī)器人能感知周圍環(huán)境。
“‘青龍’平臺(tái)的核心技術(shù)經(jīng)過了十多年的技術(shù)沉淀,標(biāo)志著我們的人形機(jī)器人平臺(tái)技術(shù)實(shí)現(xiàn)從無到有的突破。”梁振杰說。
青龍核心研發(fā)團(tuán)隊(duì)是國(guó)內(nèi)最早開展仿生腿足式機(jī)器人研究的團(tuán)隊(duì)之一,擁有近十年機(jī)器人行業(yè)技術(shù)積累,構(gòu)建了仿生機(jī)器人核心技術(shù)體系,建立了機(jī)器人控制、感知、交互等核心技術(shù)群,支撐著“青龍”處在國(guó)內(nèi)人形機(jī)器人技術(shù)領(lǐng)先水平。
全尺寸通用人形機(jī)器人開源公版機(jī)“青龍”(2024年7月4日攝) 王翔攝/本刊
具身大腦+小腦模型:人形機(jī)器人的智力
“青龍”擁有“朱雀”具身大腦和“玄武”小腦模型。
“朱雀”具身大腦是一個(gè)以多模態(tài)大模型為核心的機(jī)器人指揮調(diào)度中心,利用多模態(tài)大模型的感知能力、任務(wù)理解能力、記憶能力以及規(guī)劃能力,幫助機(jī)器人完成任務(wù)。輸入方式是文字和圖像信息,支持語音交互,最終將任務(wù)決策信息輸出給“玄武”小腦模型。
記者采訪了解到,在當(dāng)前發(fā)布版本中,“朱雀”具身大腦共集成3個(gè)大模型,分別是:科大訊飛星火大模型、上海人工智能實(shí)驗(yàn)室書生·浦語大模型、上海人工智能實(shí)驗(yàn)室書生·萬象多模態(tài)大模型。
“朱雀”具身大腦擁有跨設(shè)備的調(diào)度框架。具體來看,書生浦語大模型和萬象多模態(tài)大模型運(yùn)行在本地服務(wù)器,其中,語言大模型實(shí)現(xiàn)用戶意圖識(shí)別與對(duì)話功能;訊飛星火大模型與浦語功能相似,但是運(yùn)行在云端服務(wù)器;多模態(tài)大模型具備處理圖像的能力,當(dāng)識(shí)別到用戶的任務(wù)與當(dāng)前環(huán)境相關(guān)時(shí),會(huì)啟用多模態(tài)大模型進(jìn)行環(huán)境感知。
中心具身智能負(fù)責(zé)人田翀說,在后續(xù)更新版本中,我們將微調(diào)參數(shù)量較小的語言模型,直接部署在機(jī)器人終端,作為大模型的補(bǔ)充。對(duì)于簡(jiǎn)單問題,機(jī)器人直接做出回復(fù),從而減少與服務(wù)器通信的時(shí)間,實(shí)現(xiàn)更快速準(zhǔn)確的交互與技能調(diào)度。
“玄武”小腦模型是任務(wù)執(zhí)行模型,分為軌跡規(guī)劃模塊和運(yùn)動(dòng)控制器兩個(gè)部分。首先,軌跡規(guī)劃模塊負(fù)責(zé)輸出期望軌跡,它由端到端的機(jī)載視覺信息為驅(qū)動(dòng),以人類動(dòng)作為模仿對(duì)象。然后,由運(yùn)動(dòng)控制器控制人形機(jī)器人做出相應(yīng)的動(dòng)作。
田翀介紹說,小腦模型主要有控制理論、模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等三條技術(shù)路徑。控制理論通常需要對(duì)系統(tǒng)進(jìn)行詳細(xì)建模,模仿學(xué)習(xí)通過模仿專家的行為來學(xué)習(xí)任務(wù),強(qiáng)化學(xué)習(xí)則是讓人形機(jī)器人通過與環(huán)境的交互來學(xué)習(xí),三者各有優(yōu)劣。上述三種技術(shù)路徑,“玄武”小腦模型都采用了。
不斷進(jìn)化的具身大腦和小腦模型讓人形機(jī)器人更聰明。
數(shù)據(jù):人形機(jī)器人的“靈魂”
受訪者表示,決定人形機(jī)器人智能程度的關(guān)鍵因素是數(shù)據(jù)。“數(shù)據(jù)是人形機(jī)器人的靈魂,數(shù)據(jù)越富集,‘大小腦’的智能越高、能力越強(qiáng)。”中心具身智能負(fù)責(zé)人邢伯陽介紹,“大小腦”需要非常多數(shù)據(jù)進(jìn)行綜合訓(xùn)練,包括但不限于多樣化垂類場(chǎng)景訓(xùn)練數(shù)據(jù)、多模態(tài)語音數(shù)據(jù)、人體開源數(shù)據(jù)、運(yùn)動(dòng)捕捉數(shù)據(jù)、機(jī)器人本體數(shù)據(jù)、環(huán)境地形數(shù)據(jù)等。
人形機(jī)器人自身的數(shù)據(jù)采集主要有兩類,邢伯陽說,一類是通過全身運(yùn)動(dòng)捕捉設(shè)備捕捉人體全身高精度運(yùn)動(dòng)關(guān)節(jié)角度,可以訓(xùn)練人形機(jī)器人完成走、跑、跳、抓、拿、放等多種技能。另一類針對(duì)靈巧的專用作業(yè)和精細(xì)作業(yè),是通過頭戴式視覺系統(tǒng)完成毫米級(jí)手部動(dòng)作的采集。
通過“解剖”小腦模型,能看出數(shù)據(jù)對(duì)其的塑造作用。“我們首先收集了大量的人力數(shù)據(jù),以模仿學(xué)習(xí)為基礎(chǔ)打造行為策略和行為標(biāo)準(zhǔn)。然后利用控制理論和強(qiáng)化學(xué)習(xí)打造運(yùn)動(dòng)控制系統(tǒng),在3個(gè)月內(nèi)完成了小腦模型的算法開發(fā)和迭代。”田翀說,我們充分利用了人體運(yùn)動(dòng)數(shù)據(jù),結(jié)合模仿學(xué)習(xí)策略,為機(jī)器人運(yùn)動(dòng)訓(xùn)練提供了精準(zhǔn)的參考軌跡和運(yùn)動(dòng)標(biāo)準(zhǔn)。同時(shí),我們還將傳統(tǒng)的運(yùn)動(dòng)控制方法應(yīng)用于數(shù)據(jù)收集工具的開發(fā),并將這些思想融入到強(qiáng)化學(xué)習(xí)訓(xùn)練中。
通過技術(shù)融合,不僅提高了機(jī)器人運(yùn)動(dòng)控制策略的訓(xùn)練效率,縮短了訓(xùn)練周期,還確保了策略在實(shí)際應(yīng)用中的安全性和可靠性,這是“玄武”小腦模型與其他小腦模型相比的一大特點(diǎn)。“當(dāng)然,該模型還在發(fā)展初期,能力和功能仍需提升和完善。”田翀說。
借助AI,管控平臺(tái)同時(shí)完成對(duì)數(shù)據(jù)標(biāo)注、管理與模型部署的需求,助力實(shí)現(xiàn)機(jī)器人數(shù)據(jù)采集、評(píng)估清洗、訓(xùn)推一體的全流程閉環(huán)。邢伯陽向記者解釋說,通過仿真環(huán)境對(duì)采集數(shù)據(jù)實(shí)現(xiàn)快速的測(cè)試,對(duì)失敗數(shù)據(jù)單元進(jìn)行刪除,完成對(duì)原始數(shù)據(jù)的清洗,再對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)面向機(jī)器人端快速部署。
中心計(jì)劃用3年時(shí)間完成“白虎”數(shù)據(jù)集的構(gòu)建,一方面建設(shè)超過100個(gè)高精度運(yùn)動(dòng)采集設(shè)備,另一方面共享業(yè)界其他單位采集的數(shù)據(jù),實(shí)現(xiàn)清洗后的高質(zhì)量數(shù)據(jù)總量超過1PB,覆蓋超過100個(gè)場(chǎng)景、2000個(gè)任務(wù)。如果1部高清電影占用的數(shù)據(jù)空間大約是1GB,那么1PB的數(shù)據(jù)量大約可以存儲(chǔ)100萬部這樣的電影。
訓(xùn)練場(chǎng):人形機(jī)器人的學(xué)校
“人為演示一個(gè)動(dòng)作大約50次,機(jī)器人就能學(xué)會(huì)。”在2024世界人工智能大會(huì)的國(guó)家地方共建人形機(jī)器人創(chuàng)新中心展區(qū),記者看到了一個(gè)小型的機(jī)器人“訓(xùn)練場(chǎng)”,現(xiàn)場(chǎng)工作人員如同一個(gè)熟練的“老師傅”做著生產(chǎn)線上的抓取動(dòng)作,4個(gè)機(jī)器人則跟著他同步做出了一樣的動(dòng)作。
為什么要搭建訓(xùn)練場(chǎng)?中心技術(shù)負(fù)責(zé)人劉宇飛說,構(gòu)建智能訓(xùn)練場(chǎng),模擬產(chǎn)線及工業(yè)流水線,收集多模態(tài)數(shù)據(jù),并搭建數(shù)據(jù)管理平臺(tái),將有效提升人形機(jī)器人在不同場(chǎng)景下的作業(yè)能力,加速具身智能技術(shù)的發(fā)展與應(yīng)用落地。
在位于上海張江的國(guó)家地方共建人形機(jī)器人創(chuàng)新中心,記者看到更多機(jī)器人在努力學(xué)習(xí)人類本領(lǐng):它們有的在學(xué)習(xí)高負(fù)載狀態(tài)下穩(wěn)定快速地行走,有的在練習(xí)拿飲料、餅干等不同形狀和重量的物品……
“歸根結(jié)底,訓(xùn)練場(chǎng)是數(shù)據(jù)生產(chǎn)和數(shù)據(jù)規(guī)模化的場(chǎng)地。”劉宇飛表示,訓(xùn)練場(chǎng)分為感、存、算、學(xué)、用五個(gè)部分。“感”和“存”主要用來做云端數(shù)據(jù)的采集,包括要操作的數(shù)據(jù)、音頻數(shù)據(jù)、自然語言、運(yùn)動(dòng)捕捉等。“算”和“學(xué)”是指機(jī)器人的技能模仿學(xué)習(xí)和強(qiáng)化學(xué)習(xí),主要是做單臂、雙臂以及全身行為的運(yùn)動(dòng)訓(xùn)練。“用”則是在工業(yè)生產(chǎn)線及服務(wù)等場(chǎng)景里實(shí)現(xiàn)人形機(jī)器人最新的模擬和應(yīng)用。
劉宇飛介紹,訓(xùn)練場(chǎng)數(shù)據(jù)的生產(chǎn)方法包括三個(gè)階段:
第一步是打造單臂的單技能學(xué)習(xí)與作業(yè)對(duì)象環(huán)境的泛化能力。
第二步是基于協(xié)作臂把這套技術(shù)路線遷移到“青龍”的上肢。
“青龍”的上肢單臂擁有7自由度+6自由度的靈巧手,協(xié)作臂是單臂6自由度+夾爪;為了使靈巧手擁有更廣的作業(yè)空間,沒有加入手腕相機(jī)。遷移時(shí),我們對(duì)采集數(shù)據(jù)實(shí)時(shí)優(yōu)化,在時(shí)間上嚴(yán)格對(duì)齊動(dòng)作軌跡和圖像,以達(dá)到和三相機(jī)(1頭部+2手腕)同樣的學(xué)習(xí)效果。
第三步則是生產(chǎn)大規(guī)模、低成本的人類作業(yè)視頻。
訓(xùn)練場(chǎng)不僅關(guān)注“小腦”模型的訓(xùn)練,還涉及“大腦”模型,如環(huán)境感知、行為控制、人機(jī)交互、云端網(wǎng)聯(lián)等能力的訓(xùn)練。
“2024年,我們會(huì)在上海打造100+人形機(jī)器人的產(chǎn)品、100+人形機(jī)器人的訓(xùn)練場(chǎng)。到2027年,我們期待能夠在多個(gè)城市、面向各類場(chǎng)景,搭建1000+人形機(jī)器人訓(xùn)練場(chǎng)來服務(wù)整個(gè)人形機(jī)器人生態(tài)。”劉宇飛說。
本文鏈接:http://www.tebozhan.com/showinfo-16-109085-0.html瞭望 | 從0到1造一個(gè)人形機(jī)器人,需要哪些關(guān)鍵技術(shù)?
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 從Mini LED背光電視技術(shù)升級(jí),看行業(yè)技術(shù)趨勢(shì)與競(jìng)爭(zhēng)格局
下一篇: 瞭望 | 為何“起步就熱”