在機器人技術領域的最新突破中,智元機器人公司正式揭曉了其首個通用具身基座模型——智元啟元大模型Genie Operator-1(簡稱GO-1)。這一創新成果不僅標志著機器人在智能交互與執行任務能力上的重大飛躍,還預示著具身智能正加速向通用化、開放化與智能化邁進。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,該框架融合了VLM(多模態大模型)與MoE(混合專家)技術。VLM作為模型的主干網絡,借助互聯網上的大規模純文本和圖文數據,賦予了GO-1強大的場景感知與理解能力。而MoE則通過隱動作專家模型和動作專家模型,利用人類操作和跨本體操作視頻以及高質量的仿真和真機數據,使GO-1具備了動作的理解與精細執行能力。
智元機器人的這一創新成果,在多個方面展現出了卓越的性能。GO-1能夠實現采訓推一體化,無縫銜接數據采集、模型訓練與推理過程。其小樣本快速泛化能力,使得模型能夠在極少數據甚至零樣本的情況下,快速適應新場景與新任務。“一腦多形”的跨本體應用能力,讓GO-1能夠在不同機器人形態間靈活遷移,快速適配各種本體。
更為先進的是,GO-1具備持續進化的能力。借助智元的數據回流系統,模型能夠從實際執行中遇到的問題數據中不斷學習進化,不斷提升自身性能。而人類視頻學習能力,則讓GO-1能夠結合互聯網視頻和真實人類示范進行學習,進一步增強了對人類行為的理解。
在應用場景方面,GO-1同樣展現出了廣泛的適用性。通過ViLLA框架,GO-1能夠將多相機視覺信號和人類語言指令直接轉化為機器人的動作執行。無論是家庭場景中的準備餐食、收拾桌面,還是辦公和商業場景中的接待訪客、發放物品,GO-1都能輕松應對。甚至在一些更復雜的工業場景中,GO-1同樣能夠展現出卓越的操作能力。
在實際操作中,用戶只需用日常語言向GO-1發出指令,如“掛衣服”,模型便能根據所學習的知識和數據,理解指令的含義和要求,并規劃出執行步驟。從理解場景、拆解環節,到模擬操作、精準執行,GO-1都能展現出令人驚嘆的智能水平。
GO-1的持續進化能力也為其在未來的應用中提供了無限可能。例如,當機器人在制作咖啡時不慎將杯子放歪,GO-1便能從這次失敗中學習,不斷優化自身操作,直到成功完成任務。這種不斷學習和進步的能力,無疑將極大提升機器人在實際應用中的可靠性和穩定性。
智元啟元大模型GO-1的發布,無疑為機器人技術的發展注入了新的活力。隨著具身智能技術的不斷進步和應用場景的不斷拓展,我們有理由相信,未來的機器人將更加智能、更加靈活,能夠更好地服務于人類的生活和工作。
本文鏈接:http://www.tebozhan.com/showinfo-45-11424-0.html智元機器人發布通用基座大模型GO-1,新人形機器人亮相在即
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com