在機器人技術的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡稱GO-1)的創(chuàng)新成果近日由智元機器人公司正式發(fā)布。這款通用具身基座模型,以其獨特的Vision-Language-Latent-Action(ViLLA)框架,為機器人領域帶來了革命性的突破。
ViLLA框架由兩大核心組件構成:VLM(多模態(tài)大模型)與MoE(混合專家)。VLM作為GO-1的主干網絡,基于開源多模態(tài)大模型5-2B的權重進行訓練,通過互聯網上的大規(guī)模純文本和圖文數據,賦予了GO-1強大的場景感知和理解能力。而MoE則包含了隱動作專家模型和動作專家模型,前者利用互聯網上的大規(guī)模人類操作和跨本體操作視頻,使模型能夠理解并執(zhí)行各種動作;后者則通過高質量的仿真數據和真機數據,確保了動作的精細執(zhí)行能力。
GO-1的發(fā)布,標志著機器人在小樣本快速泛化、跨本體應用等方面取得了顯著進展。該模型能夠在極少數據甚至零樣本的情況下,快速適應新場景和新任務,實現“一腦多形”的跨本體部署。同時,智元機器人還預告,未來幾個月將推出基于強化學習的仿真模型,并即將亮相新的人形機器人。
GO-1的成功,得益于其獨特的數字金字塔構建方式。底層是互聯網的大規(guī)模純文本與圖文數據,為機器人提供了廣泛的知識基礎。在此基礎上,通過引入互聯網的大規(guī)模人類操作/跨本體視頻和仿真數據,GO-1得以學習各種動作操作模式,并增強泛化性。金字塔的頂層則是高質量的真機示教數據,用于訓練精準動作執(zhí)行。
在實際應用中,GO-1展現出了卓越的性能。用戶只需通過簡單的語言指令,機器人就能根據場景和物體理解指令的含義,并快速執(zhí)行相應動作。例如,用戶告訴機器人“掛衣服”,機器人就能根據所學知識和仿真數據,理解掛衣服的步驟,并精準完成任務。GO-1還能通過數據回流系統(tǒng)持續(xù)進化,從實際執(zhí)行中遇到的問題數據中不斷學習,提高任務完成的成功率。
GO-1的應用場景廣泛,從家庭場景中的準備餐食、收拾桌面,到辦公和商業(yè)場景中的接待訪客、發(fā)放物品,再到工業(yè)等其他場景的操作任務,都能輕松應對。這意味著機器人將能夠走向更多不同場景,適應多變的真實世界,為人類的工作和生活帶來更多便利。
智元啟元大模型GO-1的發(fā)布,不僅為機器人領域帶來了技術上的突破,更為具身智能的通用化、開放化與智能化發(fā)展開辟了新道路。未來,隨著技術的不斷進步和應用場景的不斷拓展,機器人將在更多領域發(fā)揮重要作用,為人類創(chuàng)造更加美好的生活和工作環(huán)境。
本文鏈接:http://www.tebozhan.com/showinfo-45-11417-0.html智元啟元大模型GO-1發(fā)布,具身智能邁向新高度,新人形機器人即將亮相!
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com