在機器人技術的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的創新成果近日由智元機器人公司正式發布。這款通用具身基座模型標志著機器人在理解并執行人類指令方面邁出了重要一步。
GO-1的核心在于其獨特的Vision-Language-Latent-Action(ViLLA)框架,該框架巧妙融合了VLM(多模態大模型)與MoE(混合專家)技術。這一組合不僅賦予了GO-1強大的場景感知與理解能力,還使其能夠迅速適應不同的機器人本體,實現了從理論到實踐的跨越。
VLM作為GO-1的主干網絡,通過繼承開源多模態大模型的權重,并利用互聯網上的大規模純文本和圖文數據,使機器人具備了廣泛的場景理解能力。而MoE中的隱動作專家模型和動作專家模型,則分別通過學習互聯網上的大規模人類操作和跨本體操作視頻,以及高質量的仿真數據和真機數據,進一步提升了GO-1的動作理解和執行能力。
GO-1的發布,意味著機器人技術迎來了小樣本快速泛化的新時代。這款模型能夠在極少數據甚至零樣本的情況下,迅速適應新場景和新任務,大大降低了后訓練成本。同時,“一腦多形”的特性使其能夠在不同機器人形態之間自由遷移,快速適配到各種本體。
智元機器人在構建GO-1時,采用了數字金字塔的設計理念。從底層的大規模純文本與圖文數據,到上層的人類操作/跨本體視頻、仿真數據,再到頂層的真機示教數據,每一層都為機器人的“基礎教育”和“能力培訓”提供了堅實的基礎。這使得GO-1能夠輕松面對多種多樣的環境和物體,快速學習新的操作。
在實際應用中,GO-1展現出了驚人的表現。用戶只需用平常講話的方式告訴機器人要做的事情,比如“掛衣服”,機器人就能根據所學習的知識和數據,迅速理解并執行任務。無論是家庭場景中的倒水、烤吐司,還是商務會議中的拿飲料、拿蘋果,GO-1都能快速響應,精準完成。
GO-1還具備持續進化的能力。通過數據回流系統,機器人可以從實際執行中遇到的問題數據中不斷學習,持續改進自己的表現。例如,當機器人在做咖啡時不小心把杯子放歪了,它就能從這次失敗中吸取教訓,下次做得更好。
智元機器人的這一創新成果,無疑為具身智能的發展注入了新的活力。GO-1的出現,意味著機器人將能夠更快地適應多變的真實世界,從家庭到辦公、從商業到工業,各種場景下的應用都將變得更加便捷和高效。這不僅將極大地提升人類的生活質量和工作效率,還將為機器人技術的未來發展開辟更加廣闊的道路。
本文鏈接:http://www.tebozhan.com/showinfo-45-11421-0.html智元機器人發布通用基座大模型GO-1,新人形機器人亮相在即
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com