在機器人技術的前沿探索中,一款全新的通用具身基座模型——智元啟元大模型Genie Operator-1(GO-1)于近日正式亮相,由智元機器人公司隆重發布。這款模型引入了一種創新的Vision-Language-Latent-Action(ViLLA)框架,融合了VLM(多模態大模型)與MoE(混合專家)技術,展現了采訓推一體化、小樣本快速泛化、跨本體應用、持續進化以及人類視頻學習等多重優勢。
GO-1的ViLLA框架是其核心所在,它巧妙地結合了VLM與MoE。VLM作為模型的主干網絡,繼承了開源多模態大模型5-2B的權重,并通過互聯網上的大規模純文本和圖文數據,賦予了GO-1強大的場景感知和理解能力。而MoE則包含了隱動作專家模型和動作專家模型,前者利用互聯網上的大規模人類操作和跨本體操作視頻,使模型能夠理解動作;后者則借助高質量的仿真數據和真機數據,確保模型能夠精確執行動作。
GO-1的五大特點尤為突出:采訓推一體化設計,確保了數據采集、模型訓練和模型推理的無縫銜接;小樣本快速泛化能力,使得模型能夠在極少數據甚至零樣本的情況下,快速適應新場景和新任務;一腦多形功能,使GO-1成為一個通用機器人策略模型,能夠輕松遷移至不同形態的機器人上;持續進化特性,借助智元的數據回流系統,模型能夠不斷從實際執行中遇到的問題數據中學習和進化;人類視頻學習能力,則讓模型能夠結合互聯網視頻和真實人類示范進行學習,進一步增強了其對人類行為的理解。
GO-1的構建基于具身領域的數字金字塔,底層是互聯網的大規模純文本與圖文數據,為機器人提供通用知識和場景理解的基礎。其上則是人類操作和跨本體視頻數據,幫助機器人學習動作操作模式。再上一層是仿真數據,用于增強模型的泛化性,使其能夠適應不同場景和物體。而金字塔的頂層,則是高質量的真機示教數據,用于訓練精準的動作執行。
ViLLA框架的引入,使得GO-1能夠將輸入的多相機視覺信號和人類語言指令直接轉化為機器人的動作執行。與Vision-Language-Action(VLA)模型相比,ViLLA通過預測隱式動作標記(Latent Action Tokens),有效彌合了圖像-文本輸入與機器人執行動作之間的鴻溝。例如,當用戶用日常語言向機器人發出“掛衣服”的指令時,GO-1能夠迅速理解指令含義,并依據所學的人類操作視頻和仿真數據,精準完成掛衣服的任務。
GO-1的應用場景廣泛,從家庭場景中的準備餐食、收拾桌面,到辦公和商業場景中的接待訪客、發放物品,再到工業等更多領域的操作任務,GO-1都能迅速適應并高效完成。在商務會議中,面對人類發出的各種語音指令,GO-1能夠迅速響應,如“幫我拿一瓶飲料”或“幫我拿一個蘋果”,展現了其強大的指令泛化能力。
GO-1還具備持續進化的能力。例如,當機器人在制作咖啡時不小心將杯子放歪時,它能夠從這次失敗中學習到經驗,并在后續任務中不斷優化和調整,直至成功完成任務。這種從問題數據中不斷學習和進化的能力,使得GO-1能夠不斷適應多變的真實世界。
智元機器人的GO-1不僅為機器人技術帶來了革命性的突破,更為機器人走向更多不同場景、適應多變的真實世界提供了強大的支持。隨著技術的不斷進步和應用的不斷拓展,GO-1有望成為未來機器人領域的佼佼者,為人類的工作和生活帶來更多便利和驚喜。
本文鏈接:http://www.tebozhan.com/showinfo-45-11384-0.html智元機器人發布通用基座大模型GO-1,新人形機器人亮相在即
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com