在機器人技術的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的創新成果近日由智元機器人公司正式發布。這款通用具身基座模型,以其獨特的Vision-Language-Latent-Action(ViLLA)框架,為機器人領域帶來了革命性的突破。
GO-1的核心在于其ViLLA框架,該框架融合了VLM(多模態大模型)與MoE(混合專家)技術。VLM作為主干網絡,基于開源多模態大模型5-2B的權重,并通過互聯網上的大規模純文本和圖文數據進行訓練,賦予了GO-1強大的場景感知和理解能力。而MoE則包含隱動作專家模型和動作專家模型,前者利用互聯網上的大規模人類操作和跨本體操作視頻,使模型能夠理解動作;后者則通過高質量的仿真數據和真機數據,確保模型能夠精確執行動作。
GO-1展現出了多方面的卓越性能。其采訓推一體化設計,使得數據采集、模型訓練和模型推理能夠無縫銜接。小樣本快速泛化能力,讓GO-1能夠在極少數據甚至零樣本的情況下,快速適應新場景和新任務?!耙荒X多形”的跨本體應用能力,意味著GO-1可以靈活遷移至不同形態的機器人上,實現快速適配。持續進化能力,則依賴于智元的數據回流系統,使模型能夠從實際執行中遇到的問題數據中不斷學習進步。而人類視頻學習能力,則進一步增強了模型對人類行為的理解。
GO-1的構建基于具身領域的數字金字塔模型。底層是互聯網的大規模純文本與圖文數據,為機器人提供通用知識和場景理解。上一層是人類操作/跨本體視頻,幫助機器人學習動作操作模式。再上一層是仿真數據,用于增強泛化性。金字塔的頂層則是高質量的真機示教數據,確保動作的精準執行。這種全面的數據基礎,使得GO-1能夠輕松面對多樣化的環境和物體,快速學習新的操作。
ViLLA框架的引入,使得GO-1能夠將多相機的視覺信號和人類語言指令直接轉化為機器人的動作執行。與Vision-Language-Action(VLA)模型相比,ViLLA通過預測隱式動作標記(Latent Action Tokens),有效彌合了圖像-文本輸入與機器人執行動作之間的鴻溝。例如,當用戶以自然語言向機器人發出“掛衣服”的指令時,GO-1能夠準確理解指令含義,并根據所學習的人類操作視頻和仿真數據,規劃出掛衣服的步驟,并最終精準完成任務。
GO-1的應用場景廣泛。在家庭環境中,它可以幫忙倒水、烤吐司等日常任務。在商業活動中,它可以負責檢票、發放物料等工作。在商務會議中,面對人類的各種語音指令,GO-1都能迅速響應并執行。GO-1的數據回流能力使其能夠持續進化,從遇到的問題數據中不斷學習和改進。
GO-1的出現,標志著具身智能正加速邁向通用化、開放化與智能化。它解決了具身智能面臨的諸多挑戰,如場景和物體泛化能力不足、語言理解能力欠缺、新技能學習緩慢以及跨本體部署困難等。隨著GO-1在更多場景中的應用,機器人將逐漸替代人類完成更多工作生活中的任務,從家庭到辦公、從商業到工業,通用具身基座大模型都將展現出其強大的潛力和價值。
本文鏈接:http://www.tebozhan.com/showinfo-45-11396-0.html智元機器人發布通用基座大模型GO-1,新人形機器人即將亮相!
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com