在機(jī)器人技術(shù)領(lǐng)域的最新突破中,智元機(jī)器人公司正式揭曉了其首個(gè)通用具身基座模型——智元啟元大模型Genie Operator-1(簡稱GO-1)。這一創(chuàng)新成果不僅標(biāo)志著機(jī)器人在智能交互與執(zhí)行任務(wù)能力上的重大飛躍,還預(yù)示著具身智能正加速向通用化、開放化與智能化邁進(jìn)。
GO-1的核心在于其提出的Vision-Language-Latent-Action(ViLLA)框架,該框架融合了VLM(多模態(tài)大模型)與MoE(混合專家)技術(shù)。VLM作為模型的主干網(wǎng)絡(luò),借助互聯(lián)網(wǎng)上的大規(guī)模純文本和圖文數(shù)據(jù),賦予了GO-1強(qiáng)大的場景感知與理解能力。而MoE則通過隱動作專家模型和動作專家模型,利用人類操作和跨本體操作視頻以及高質(zhì)量的仿真和真機(jī)數(shù)據(jù),使GO-1具備了動作的理解與精細(xì)執(zhí)行能力。
智元機(jī)器人的這一創(chuàng)新成果,在多個(gè)方面展現(xiàn)出了卓越的性能。GO-1能夠?qū)崿F(xiàn)采訓(xùn)推一體化,無縫銜接數(shù)據(jù)采集、模型訓(xùn)練與推理過程。其小樣本快速泛化能力,使得模型能夠在極少數(shù)據(jù)甚至零樣本的情況下,快速適應(yīng)新場景與新任務(wù)。“一腦多形”的跨本體應(yīng)用能力,讓GO-1能夠在不同機(jī)器人形態(tài)間靈活遷移,快速適配各種本體。
更為先進(jìn)的是,GO-1具備持續(xù)進(jìn)化的能力。借助智元的數(shù)據(jù)回流系統(tǒng),模型能夠從實(shí)際執(zhí)行中遇到的問題數(shù)據(jù)中不斷學(xué)習(xí)進(jìn)化,不斷提升自身性能。而人類視頻學(xué)習(xí)能力,則讓GO-1能夠結(jié)合互聯(lián)網(wǎng)視頻和真實(shí)人類示范進(jìn)行學(xué)習(xí),進(jìn)一步增強(qiáng)了對人類行為的理解。
在應(yīng)用場景方面,GO-1同樣展現(xiàn)出了廣泛的適用性。通過ViLLA框架,GO-1能夠?qū)⒍嘞鄼C(jī)視覺信號和人類語言指令直接轉(zhuǎn)化為機(jī)器人的動作執(zhí)行。無論是家庭場景中的準(zhǔn)備餐食、收拾桌面,還是辦公和商業(yè)場景中的接待訪客、發(fā)放物品,GO-1都能輕松應(yīng)對。甚至在一些更復(fù)雜的工業(yè)場景中,GO-1同樣能夠展現(xiàn)出卓越的操作能力。
在實(shí)際操作中,用戶只需用日常語言向GO-1發(fā)出指令,如“掛衣服”,模型便能根據(jù)所學(xué)習(xí)的知識和數(shù)據(jù),理解指令的含義和要求,并規(guī)劃出執(zhí)行步驟。從理解場景、拆解環(huán)節(jié),到模擬操作、精準(zhǔn)執(zhí)行,GO-1都能展現(xiàn)出令人驚嘆的智能水平。
GO-1的持續(xù)進(jìn)化能力也為其在未來的應(yīng)用中提供了無限可能。例如,當(dāng)機(jī)器人在制作咖啡時(shí)不慎將杯子放歪,GO-1便能從這次失敗中學(xué)習(xí),不斷優(yōu)化自身操作,直到成功完成任務(wù)。這種不斷學(xué)習(xí)和進(jìn)步的能力,無疑將極大提升機(jī)器人在實(shí)際應(yīng)用中的可靠性和穩(wěn)定性。
智元啟元大模型GO-1的發(fā)布,無疑為機(jī)器人技術(shù)的發(fā)展注入了新的活力。隨著具身智能技術(shù)的不斷進(jìn)步和應(yīng)用場景的不斷拓展,我們有理由相信,未來的機(jī)器人將更加智能、更加靈活,能夠更好地服務(wù)于人類的生活和工作。
本文鏈接:http://www.tebozhan.com/showinfo-45-11424-0.html智元機(jī)器人發(fā)布通用基座大模型GO-1,新人形機(jī)器人亮相在即
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com