在機器人技術領域的最新突破中,智元機器人公司近日震撼發布了其首個通用具身基座模型——智元啟元大模型Genie Operator-1(簡稱GO-1)。這一創新成果不僅標志著機器人在理解和執行人類指令方面邁出了重要一步,還預示著具身智能正加速向通用化、開放化與智能化轉型。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,該框架巧妙融合了VLM(多模態大模型)與MoE(混合專家)技術。VLM作為主干網絡,繼承了開源多模態大模型的權重,并通過互聯網大規模純文本和圖文數據的訓練,賦予了GO-1強大的場景感知和理解能力。而MoE則進一步增強了模型的動作規劃和執行能力,使其能夠精準響應各種指令。
智元機器人公司強調,GO-1具備小樣本快速泛化的能力,這意味著它能夠在極少數據甚至零樣本的情況下,快速適應新場景和新任務。這一特性極大地降低了后訓練成本,使得GO-1能夠迅速應用于各種實際場景中。
GO-1的“一腦多形”特性使其成為一個真正的通用機器人策略模型。它能夠在不同機器人形態之間靈活遷移,快速適配到各種本體上,從而大大拓展了其應用范圍。智元公司還透露,未來幾個月將推出基于強化學習的仿真模型,并即將亮相新的人形機器人,這將進一步推動具身智能的發展。
GO-1的ViLLA框架通過預測隱式動作標記(Latent Action Tokens),成功彌合了圖像-文本輸入與機器人執行動作之間的鴻溝。用戶只需用自然語言向機器人發出指令,如“掛衣服”,GO-1就能根據所學習的知識和經驗,拆解任務步驟并精準執行。這一過程中,GO-1不僅利用了互聯網的大規模純文本和圖文數據來理解指令含義,還通過人類操作視頻和仿真數據來學習動作模式和增強泛化性。
在實際應用中,GO-1展現出了驚人的適應性和靈活性。無論是家庭場景中的準備餐食、收拾桌面等任務,還是辦公和商業場景中的接待訪客、發放物品等工作,GO-1都能輕松應對。更令人興奮的是,它還能通過數據回流系統持續進化學習,不斷提升自身性能。例如,當機器人在制作咖啡時不小心將杯子放歪時,它就能從這次失敗中吸取教訓,并在后續任務中避免類似錯誤。
智元啟元大模型GO-1的成功發布,不僅為機器人技術的發展注入了新的活力,也為人類生活帶來了更多便利和可能性。隨著具身智能技術的不斷進步和應用場景的不斷拓展,我們有理由相信,未來的機器人將更加智能、靈活和人性化。
本文鏈接:http://www.tebozhan.com/showinfo-45-11419-0.html智元機器人發布通用基座大模型GO-1,新人形機器人亮相在即!
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com