在機(jī)器人技術(shù)的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的創(chuàng)新成果近日由智元機(jī)器人公司正式發(fā)布。這款通用具身基座模型,以其獨特的Vision-Language-Latent-Action(ViLLA)框架,為機(jī)器人領(lǐng)域帶來了革命性的突破。
GO-1的核心在于其ViLLA框架,該框架融合了VLM(多模態(tài)大模型)與MoE(混合專家)技術(shù)。VLM作為主干網(wǎng)絡(luò),基于開源多模態(tài)大模型5-2B的權(quán)重,并通過互聯(lián)網(wǎng)上的大規(guī)模純文本和圖文數(shù)據(jù)進(jìn)行訓(xùn)練,賦予了GO-1強大的場景感知和理解能力。而MoE則包含隱動作專家模型和動作專家模型,前者利用互聯(lián)網(wǎng)上的大規(guī)模人類操作和跨本體操作視頻,使模型能夠理解動作;后者則通過高質(zhì)量的仿真數(shù)據(jù)和真機(jī)數(shù)據(jù),確保模型能夠精確執(zhí)行動作。
GO-1展現(xiàn)出了多方面的卓越性能。其采訓(xùn)推一體化設(shè)計,使得數(shù)據(jù)采集、模型訓(xùn)練和模型推理能夠無縫銜接。小樣本快速泛化能力,讓GO-1能夠在極少數(shù)據(jù)甚至零樣本的情況下,快速適應(yīng)新場景和新任務(wù)。“一腦多形”的跨本體應(yīng)用能力,意味著GO-1可以靈活遷移至不同形態(tài)的機(jī)器人上,實現(xiàn)快速適配。持續(xù)進(jìn)化能力,則依賴于智元的數(shù)據(jù)回流系統(tǒng),使模型能夠從實際執(zhí)行中遇到的問題數(shù)據(jù)中不斷學(xué)習(xí)進(jìn)步。而人類視頻學(xué)習(xí)能力,則進(jìn)一步增強了模型對人類行為的理解。
GO-1的構(gòu)建基于具身領(lǐng)域的數(shù)字金字塔模型。底層是互聯(lián)網(wǎng)的大規(guī)模純文本與圖文數(shù)據(jù),為機(jī)器人提供通用知識和場景理解。上一層是人類操作/跨本體視頻,幫助機(jī)器人學(xué)習(xí)動作操作模式。再上一層是仿真數(shù)據(jù),用于增強泛化性。金字塔的頂層則是高質(zhì)量的真機(jī)示教數(shù)據(jù),確保動作的精準(zhǔn)執(zhí)行。這種全面的數(shù)據(jù)基礎(chǔ),使得GO-1能夠輕松面對多樣化的環(huán)境和物體,快速學(xué)習(xí)新的操作。
ViLLA框架的引入,使得GO-1能夠?qū)⒍嘞鄼C(jī)的視覺信號和人類語言指令直接轉(zhuǎn)化為機(jī)器人的動作執(zhí)行。與Vision-Language-Action(VLA)模型相比,ViLLA通過預(yù)測隱式動作標(biāo)記(Latent Action Tokens),有效彌合了圖像-文本輸入與機(jī)器人執(zhí)行動作之間的鴻溝。例如,當(dāng)用戶以自然語言向機(jī)器人發(fā)出“掛衣服”的指令時,GO-1能夠準(zhǔn)確理解指令含義,并根據(jù)所學(xué)習(xí)的人類操作視頻和仿真數(shù)據(jù),規(guī)劃出掛衣服的步驟,并最終精準(zhǔn)完成任務(wù)。
GO-1的應(yīng)用場景廣泛。在家庭環(huán)境中,它可以幫忙倒水、烤吐司等日常任務(wù)。在商業(yè)活動中,它可以負(fù)責(zé)檢票、發(fā)放物料等工作。在商務(wù)會議中,面對人類的各種語音指令,GO-1都能迅速響應(yīng)并執(zhí)行。GO-1的數(shù)據(jù)回流能力使其能夠持續(xù)進(jìn)化,從遇到的問題數(shù)據(jù)中不斷學(xué)習(xí)和改進(jìn)。
GO-1的出現(xiàn),標(biāo)志著具身智能正加速邁向通用化、開放化與智能化。它解決了具身智能面臨的諸多挑戰(zhàn),如場景和物體泛化能力不足、語言理解能力欠缺、新技能學(xué)習(xí)緩慢以及跨本體部署困難等。隨著GO-1在更多場景中的應(yīng)用,機(jī)器人將逐漸替代人類完成更多工作生活中的任務(wù),從家庭到辦公、從商業(yè)到工業(yè),通用具身基座大模型都將展現(xiàn)出其強大的潛力和價值。
本文鏈接:http://www.tebozhan.com/showinfo-45-11410-0.html智元機(jī)器人發(fā)布通用基座大模型GO-1,新人形機(jī)器人即將亮相!
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com