在機器人技術的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的創新產品于近日震撼發布,標志著通用具身基座模型技術邁出了重要一步。這款由智元機器人精心打造的模型,憑借其獨特的Vision-Language-Latent-Action(ViLLA)框架,正引領著機器人智能化發展的新潮流。
GO-1的核心競爭力在于其ViLLA框架,該框架巧妙融合了VLM(多模態大模型)與MoE(混合專家)技術。VLM作為模型的主干網絡,通過吸收互聯網上的大規模純文本和圖文數據,賦予了GO-1強大的場景感知和理解能力。而MoE則通過隱動作專家模型和動作專家模型的協同作用,使GO-1具備了動作的理解和精細執行能力。
GO-1的五大特點尤為引人注目:采訓推一體化設計,確保了數據采集、模型訓練和推理的無縫銜接;小樣本快速泛化能力,使得GO-1能夠在極少數據甚至零樣本的情況下,迅速適應新場景和新任務;一腦多形特性,意味著GO-1可以輕松遷移至不同形態的機器人,實現跨本體應用;持續進化機制,借助智元的數據回流系統,GO-1能夠不斷從實際執行中遇到的問題中學習成長;人類視頻學習能力,則讓GO-1能夠結合互聯網視頻和真實人類示范,深化對人類行為的理解。
在構建過程中,GO-1采用了數字金字塔的設計理念。底層基于互聯網的大規模純文本與圖文數據,為機器人提供了廣泛的知識基礎。其上則是人類操作和跨本體視頻數據,幫助機器人學習各種動作操作模式。再往上,仿真數據增強了GO-1的泛化性,使其能夠應對不同場景和物體。而金字塔的頂層,則是高質量的真機示教數據,確保了GO-1精準動作執行的能力。
ViLLA框架的引入,使得GO-1能夠將多相機視覺信號和人類語言指令直接轉化為機器人的動作執行。與傳統的Vision-Language-Action(VLA)模型相比,ViLLA通過預測隱式動作標記(Latent Action Tokens),有效彌合了圖像-文本輸入與機器人執行動作之間的鴻溝。例如,當用戶以自然語言指令“掛衣服”時,GO-1能夠迅速理解指令含義,結合所學的人類操作視頻和仿真數據,精準完成掛衣服的任務。
GO-1的廣泛應用場景同樣令人矚目。從家庭場景中的準備餐食、收拾桌面,到辦公和商業場景的接待訪客、發放物品,再到工業等更多領域的操作任務,GO-1都能迅速適應并高效完成。GO-1的數據回流機制還使其能夠持續進化,不斷從實際執行中優化自身性能。
智元機器人的這一創新成果,不僅為機器人智能化發展樹立了新的里程碑,更為機器人走進千家萬戶、服務各行各業提供了強有力的技術支撐。隨著GO-1的不斷推廣和應用,我們有理由相信,一個更加智能化、便捷化的機器人時代即將到來。
本文鏈接:http://www.tebozhan.com/showinfo-45-11412-0.html智元機器人發布通用基座大模型GO-1,新人形機器人亮相在即
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com