在人工智能領(lǐng)域迎來又一重大突破之際,智元機器人公司于近日震撼發(fā)布了其首個通用具身基座模型——智元啟元大模型Genie Operator-1(簡稱GO-1)。這一創(chuàng)新成果不僅標志著機器人在理解與執(zhí)行人類指令方面邁出了關(guān)鍵一步,更為具身智能的未來發(fā)展鋪設(shè)了廣闊道路。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,該框架巧妙融合了VLM(多模態(tài)大模型)與MoE(混合專家)技術(shù)。VLM作為模型的主干網(wǎng)絡,依托互聯(lián)網(wǎng)上的海量文本與圖文數(shù)據(jù),賦予了GO-1強大的場景感知與理解能力。而MoE則進一步細分為隱動作專家模型和動作專家模型,前者通過學習互聯(lián)網(wǎng)上的人類操作視頻,使模型能夠理解并執(zhí)行復雜動作;后者則借助高質(zhì)量的仿真與真實機器數(shù)據(jù),確保動作的精準執(zhí)行。
GO-1展現(xiàn)出了多方面的卓越特性。其采訓推一體化設(shè)計,確保了數(shù)據(jù)采集、模型訓練與推理的無縫銜接,大大提高了效率。小樣本快速泛化能力更是令人矚目,即使在數(shù)據(jù)稀缺的情況下,也能迅速適應新場景與新任務。尤為值得一提的是“一腦多形”功能,使得GO-1能夠輕松遷移至不同形態(tài)的機器人本體,實現(xiàn)快速適配。借助智元的數(shù)據(jù)回流系統(tǒng),GO-1能夠持續(xù)進化,從實際執(zhí)行中汲取經(jīng)驗,不斷優(yōu)化自身性能。而人類視頻學習能力,則讓模型能夠結(jié)合互聯(lián)網(wǎng)視頻與真實人類示范,深化對人類行為的理解。
GO-1的構(gòu)建基于具身領(lǐng)域的數(shù)字金字塔模型,從底層的互聯(lián)網(wǎng)純文本與圖文數(shù)據(jù),到上層的人類操作視頻、仿真數(shù)據(jù),直至頂層的真機示教數(shù)據(jù),每一層都為機器人的“基礎(chǔ)教育”與“能力培訓”提供了堅實支撐。這種全面的知識體系,使得GO-1能夠輕松應對多樣化的環(huán)境與物體,快速學習并執(zhí)行新操作。
在實際應用中,GO-1的表現(xiàn)同樣令人印象深刻。無論是家庭場景中的倒水、烤吐司,還是商業(yè)活動中的檢票、發(fā)放物料,甚至是商務會議中的拿飲料、拿蘋果等指令,GO-1都能迅速響應并精準執(zhí)行。更令人興奮的是,通過數(shù)據(jù)回流機制,GO-1能夠不斷從執(zhí)行中學習,即使初次嘗試出現(xiàn)失誤,也能在后續(xù)任務中不斷改進,直至完美完成任務。
GO-1的發(fā)布,無疑為具身智能的發(fā)展注入了強勁動力。它打破了傳統(tǒng)機器人局限于單一任務、封閉環(huán)境的束縛,實現(xiàn)了從多種任務到開放世界的跨越,讓機器人能夠更好地適應多變的真實世界。這一創(chuàng)新成果,不僅預示著機器人將在更多場景中發(fā)揮重要作用,更為人工智能的未來發(fā)展開辟了無限可能。
本文鏈接:http://www.tebozhan.com/showinfo-45-11423-0.html智元發(fā)布通用具身基座大模型GO-1,新人形機器人即將亮相!
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com