在機器人技術的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的通用具身基座模型于近日由智元機器人公司正式發布。這款模型以其創新的Vision-Language-Latent-Action(ViLLA)框架為核心,標志著機器人在理解和執行人類指令方面邁出了重要一步。
GO-1的核心競爭力在于其ViLLA框架,該框架結合了VLM(多模態大模型)與MoE(混合專家)技術。VLM作為主干網絡,通過吸收互聯網上的大規模純文本和圖文數據,賦予了GO-1強大的場景感知和理解能力。而MoE則進一步細分為隱動作專家模型和動作專家模型,前者通過人類操作和跨本體操作視頻的學習,使模型能夠理解并執行復雜動作;后者則利用高質量的仿真數據和真機數據,確保動作的精確執行。
GO-1展現了五大顯著特點:采訓推一體化、小樣本快速泛化、一腦多形、持續進化以及人類視頻學習能力。這些特點使得GO-1能夠在不同場景下迅速適應并執行任務,大大降低了后訓練成本。例如,在極少數據甚至零樣本的情況下,GO-1仍能泛化到新場景和新任務中。
為了構建GO-1,智元機器人采用了數字金字塔模型。底層基于互聯網的大規模純文本與圖文數據,為機器人提供通用知識和場景理解的基礎。隨后是互聯網上的大規模人類操作和跨本體視頻,幫助機器人學習各種動作模式。再上一層是仿真數據,用于增強泛化性,使機器人能夠適應不同場景和物體。而金字塔的頂層則是高質量的真機示教數據,用于訓練精準動作執行。
在實際應用中,用戶只需通過簡單的語言指令,如“掛衣服”,GO-1就能迅速理解并執行任務。這一過程包括理解指令含義、拆解任務環節、識別物體和環境,并最終精確完成任務。這種能力得益于ViLLA框架中的隱式動作標記預測,它有效彌合了圖像-文本輸入與機器人執行動作之間的鴻溝。
GO-1的應用場景廣泛,從家庭生活中的倒水、烤吐司等日常任務,到商務會議中的拿飲料、拿蘋果等簡單指令,再到活動現場的檢票、發放物料等工作,GO-1都能輕松應對。通過數據回流系統,GO-1還能從實際執行中遇到的問題數據中持續學習進化,不斷提升其執行任務的能力。
智元機器人還預告了未來幾個月將推出基于強化學習的仿真模型,以及新的人形機器人。GO-1的成功發布,不僅展示了智元機器人在具身智能領域的深厚積累,也為機器人技術的未來發展指明了方向。隨著GO-1等通用具身基座大模型的廣泛應用,機器人將逐漸走向更多不同場景,適應多變的真實世界,為人類生活帶來更多便利。
本文鏈接:http://www.tebozhan.com/showinfo-45-11420-0.html智元機器人發布通用基座大模型GO-1,新人形機器人亮相在即
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com