在人工智能領域迎來新突破之際,智元機器人于近日震撼發布了其首個通用具身基座模型——智元啟元大模型Genie Operator-1(簡稱GO-1)。這一創新成果不僅標志著機器人在智能化道路上邁出了重要一步,更預示著具身智能正加速向通用化、開放化轉型。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,該框架巧妙融合了VLM(多模態大模型)與MoE(混合專家)技術。這一組合賦予了GO-1強大的場景感知、理解能力以及動作規劃、執行能力,使得機器人能夠在極少數據甚至零樣本的情況下快速適應新場景、新任務。
具體而言,VLM作為GO-1的主干網絡,通過繼承開源多模態大模型的權重,并利用互聯網上的大規模純文本和圖文數據,使機器人具備了廣泛的場景感知和理解能力。而MoE中的隱動作專家模型和動作專家模型,則分別利用互聯網上的大規模人類操作和跨本體操作視頻,以及高質量的仿真數據和真機數據,讓機器人學會了動作的理解和精細執行。
GO-1的五大特點尤為引人注目:采訓推一體化設計,實現了數據采集、模型訓練、模型推理的無縫銜接;小樣本快速泛化能力,讓機器人在極少數據下就能快速適應新場景、新任務;一腦多形功能,使得GO-1能夠在不同機器人形態之間遷移,快速適配到不同本體;持續進化特性,借助智元的數據回流系統,機器人能夠從實際執行中遇到的問題數據中持續學習、不斷進步;人類視頻學習能力,讓機器人能夠結合互聯網視頻和真實人類示范進行學習,增強對人類行為的理解。
在構建過程中,GO-1基于具身領域的數字金字塔架構,從底層到頂層依次吸收了互聯網的大規模純文本與圖文數據、人類操作/跨本體視頻、仿真數據以及高質量的真機示教數據。這一全面的“基礎教育”和“能力培訓”,使GO-1能夠輕松面對多種多樣的環境和物體,快速學習新的操作。
在實際應用中,GO-1展現出了驚人的表現。用戶只需用平常講話的方式告訴機器人要做的事情,比如“掛衣服”,機器人就能根據所看到的畫面以及所學過的知識,理解指令的含義和要求,并快速規劃出執行步驟,精準完成整個任務。從家庭場景中的準備餐食、收拾桌面,到辦公和商業場景中的接待訪客、發放物品,GO-1都能游刃有余。
GO-1還具備持續進化的能力。例如,當機器人在做咖啡時不小心把杯子放歪了,它就能從這次失敗中汲取經驗,通過數據回流系統持續學習,直到成功完成任務。這種不斷學習和進步的能力,讓GO-1在應對多變真實世界時更加從容不迫。
智元機器人還預告了未來幾個月將推出基于強化學習的仿真模型,以及新的人形機器人。這無疑將為GO-1的應用場景拓展提供更多可能性,也讓人們對未來機器人的智能化水平充滿了期待。
本文鏈接:http://www.tebozhan.com/showinfo-45-11422-0.html智元機器人發布通用基座大模型GO-1,新人形機器人亮相在即
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com