在機(jī)器人技術(shù)的前沿探索中,一款名為智元啟元大模型Genie Operator-1(簡(jiǎn)稱GO-1)的創(chuàng)新成果近日由智元機(jī)器人公司正式發(fā)布。這款通用具身基座模型標(biāo)志著機(jī)器人在理解并執(zhí)行人類指令方面邁出了重要一步。
GO-1的核心在于其獨(dú)特的Vision-Language-Latent-Action(ViLLA)框架,該框架巧妙融合了VLM(多模態(tài)大模型)與MoE(混合專家)技術(shù)。這一組合不僅賦予了GO-1強(qiáng)大的場(chǎng)景感知與理解能力,還使其能夠迅速適應(yīng)不同的機(jī)器人本體,實(shí)現(xiàn)了從理論到實(shí)踐的跨越。
VLM作為GO-1的主干網(wǎng)絡(luò),通過(guò)繼承開(kāi)源多模態(tài)大模型的權(quán)重,并利用互聯(lián)網(wǎng)上的大規(guī)模純文本和圖文數(shù)據(jù),使機(jī)器人具備了廣泛的場(chǎng)景理解能力。而MoE中的隱動(dòng)作專家模型和動(dòng)作專家模型,則分別通過(guò)學(xué)習(xí)互聯(lián)網(wǎng)上的大規(guī)模人類操作和跨本體操作視頻,以及高質(zhì)量的仿真數(shù)據(jù)和真機(jī)數(shù)據(jù),進(jìn)一步提升了GO-1的動(dòng)作理解和執(zhí)行能力。
GO-1的發(fā)布,意味著機(jī)器人技術(shù)迎來(lái)了小樣本快速泛化的新時(shí)代。這款模型能夠在極少數(shù)據(jù)甚至零樣本的情況下,迅速適應(yīng)新場(chǎng)景和新任務(wù),大大降低了后訓(xùn)練成本。同時(shí),“一腦多形”的特性使其能夠在不同機(jī)器人形態(tài)之間自由遷移,快速適配到各種本體。
智元機(jī)器人在構(gòu)建GO-1時(shí),采用了數(shù)字金字塔的設(shè)計(jì)理念。從底層的大規(guī)模純文本與圖文數(shù)據(jù),到上層的人類操作/跨本體視頻、仿真數(shù)據(jù),再到頂層的真機(jī)示教數(shù)據(jù),每一層都為機(jī)器人的“基礎(chǔ)教育”和“能力培訓(xùn)”提供了堅(jiān)實(shí)的基礎(chǔ)。這使得GO-1能夠輕松面對(duì)多種多樣的環(huán)境和物體,快速學(xué)習(xí)新的操作。
在實(shí)際應(yīng)用中,GO-1展現(xiàn)出了驚人的表現(xiàn)。用戶只需用平常講話的方式告訴機(jī)器人要做的事情,比如“掛衣服”,機(jī)器人就能根據(jù)所學(xué)習(xí)的知識(shí)和數(shù)據(jù),迅速理解并執(zhí)行任務(wù)。無(wú)論是家庭場(chǎng)景中的倒水、烤吐司,還是商務(wù)會(huì)議中的拿飲料、拿蘋果,GO-1都能快速響應(yīng),精準(zhǔn)完成。
GO-1還具備持續(xù)進(jìn)化的能力。通過(guò)數(shù)據(jù)回流系統(tǒng),機(jī)器人可以從實(shí)際執(zhí)行中遇到的問(wèn)題數(shù)據(jù)中不斷學(xué)習(xí),持續(xù)改進(jìn)自己的表現(xiàn)。例如,當(dāng)機(jī)器人在做咖啡時(shí)不小心把杯子放歪了,它就能從這次失敗中吸取教訓(xùn),下次做得更好。
智元機(jī)器人的這一創(chuàng)新成果,無(wú)疑為具身智能的發(fā)展注入了新的活力。GO-1的出現(xiàn),意味著機(jī)器人將能夠更快地適應(yīng)多變的真實(shí)世界,從家庭到辦公、從商業(yè)到工業(yè),各種場(chǎng)景下的應(yīng)用都將變得更加便捷和高效。這不僅將極大地提升人類的生活質(zhì)量和工作效率,還將為機(jī)器人技術(shù)的未來(lái)發(fā)展開(kāi)辟更加廣闊的道路。
本文鏈接:http://www.tebozhan.com/showinfo-45-11421-0.html智元機(jī)器人發(fā)布通用基座大模型GO-1,新人形機(jī)器人亮相在即
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com