在機器人技術(shù)的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的創(chuàng)新產(chǎn)品于近日震撼發(fā)布,標(biāo)志著通用具身基座模型技術(shù)邁出了重要一步。這款由智元機器人精心打造的模型,憑借其獨特的Vision-Language-Latent-Action(ViLLA)框架,正引領(lǐng)著機器人智能化發(fā)展的新潮流。
GO-1的核心競爭力在于其ViLLA框架,該框架巧妙融合了VLM(多模態(tài)大模型)與MoE(混合專家)技術(shù)。VLM作為模型的主干網(wǎng)絡(luò),通過吸收互聯(lián)網(wǎng)上的大規(guī)模純文本和圖文數(shù)據(jù),賦予了GO-1強大的場景感知和理解能力。而MoE則通過隱動作專家模型和動作專家模型的協(xié)同作用,使GO-1具備了動作的理解和精細執(zhí)行能力。
GO-1的五大特點尤為引人注目:采訓(xùn)推一體化設(shè)計,確保了數(shù)據(jù)采集、模型訓(xùn)練和推理的無縫銜接;小樣本快速泛化能力,使得GO-1能夠在極少數(shù)據(jù)甚至零樣本的情況下,迅速適應(yīng)新場景和新任務(wù);一腦多形特性,意味著GO-1可以輕松遷移至不同形態(tài)的機器人,實現(xiàn)跨本體應(yīng)用;持續(xù)進化機制,借助智元的數(shù)據(jù)回流系統(tǒng),GO-1能夠不斷從實際執(zhí)行中遇到的問題中學(xué)習(xí)成長;人類視頻學(xué)習(xí)能力,則讓GO-1能夠結(jié)合互聯(lián)網(wǎng)視頻和真實人類示范,深化對人類行為的理解。
在構(gòu)建過程中,GO-1采用了數(shù)字金字塔的設(shè)計理念。底層基于互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),為機器人提供了廣泛的知識基礎(chǔ)。其上則是人類操作和跨本體視頻數(shù)據(jù),幫助機器人學(xué)習(xí)各種動作操作模式。再往上,仿真數(shù)據(jù)增強了GO-1的泛化性,使其能夠應(yīng)對不同場景和物體。而金字塔的頂層,則是高質(zhì)量的真機示教數(shù)據(jù),確保了GO-1精準(zhǔn)動作執(zhí)行的能力。
ViLLA框架的引入,使得GO-1能夠?qū)⒍嘞鄼C視覺信號和人類語言指令直接轉(zhuǎn)化為機器人的動作執(zhí)行。與傳統(tǒng)的Vision-Language-Action(VLA)模型相比,ViLLA通過預(yù)測隱式動作標(biāo)記(Latent Action Tokens),有效彌合了圖像-文本輸入與機器人執(zhí)行動作之間的鴻溝。例如,當(dāng)用戶以自然語言指令“掛衣服”時,GO-1能夠迅速理解指令含義,結(jié)合所學(xué)的人類操作視頻和仿真數(shù)據(jù),精準(zhǔn)完成掛衣服的任務(wù)。
GO-1的廣泛應(yīng)用場景同樣令人矚目。從家庭場景中的準(zhǔn)備餐食、收拾桌面,到辦公和商業(yè)場景的接待訪客、發(fā)放物品,再到工業(yè)等更多領(lǐng)域的操作任務(wù),GO-1都能迅速適應(yīng)并高效完成。GO-1的數(shù)據(jù)回流機制還使其能夠持續(xù)進化,不斷從實際執(zhí)行中優(yōu)化自身性能。
智元機器人的這一創(chuàng)新成果,不僅為機器人智能化發(fā)展樹立了新的里程碑,更為機器人走進千家萬戶、服務(wù)各行各業(yè)提供了強有力的技術(shù)支撐。隨著GO-1的不斷推廣和應(yīng)用,我們有理由相信,一個更加智能化、便捷化的機器人時代即將到來。
本文鏈接:http://www.tebozhan.com/showinfo-45-11392-0.html智元機器人發(fā)布通用基座大模型GO-1,新人形機器人亮相在即
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com