8 月 16 日消息,研究機構 Ai2 現已在 GitHub 開源了旗下 MolmoAct 機器人“行動推理模型”(Action Reasoning Model,ARM)模型,該模型主要運用于具身機器人場景,號稱可以解決機器人在三維空間中的動作規劃與理解問題。
據介紹,與傳統僅依賴文字描述推導動作的視覺語言行動模型(VLA)不同,MolmoAct 旨在克服語言難以完整表達三維環境深度和距離關系的不足。因此 MolmoAct 在第一階段會首先生成由 VQVAE 預訓練得到的空間感知 Token,相應 Token 同時包含幾何結構與位置信息,可用于評估物體間的距離,并為后續規劃提供基礎。
而在第二階段,模型會在圖像空間中生成一系列路徑點,作為任務的中間目標,直觀展示動作展開的順序。第三階段,路徑點會被轉化為機器人末端執行器或機械爪的低層馬達指令,并根據機器人運動學配置進行動作解碼。
研究團隊指出,在名為 SimplerEnv 的模擬測試環境中,MolmoAct-7B 在訓練集未見過的任務中達到了 72.1% 的成功率,優于 Physical Intelligence、谷歌、微軟和英偉達等實驗室的對照模型。在 LIBERO 模擬平臺的多任務與終身學習測試中,經過高效參數微調,平均成功率提升至 86.6%。同時,相比業界 AI 機器人大模型,MolmoAct 的訓練成本更低:預訓練僅使用了 2630 萬樣本和 256 顆 H100 GPU,大約 1 天即可完成;微調則只需 64 顆 H100,約 2 小時即可完成。
此外,為降低機器人操作風險并提升可解釋性,MolmoAct 在執行動作前會將內部規劃的運動軌跡疊加到輸入圖像上,用戶可以直接查看并修正動作方案。同時,用戶還可以通過平板等設備使用手繪方式標注目標姿態或路徑,模型會即時整合這些標注進行一系列調整。
目前,Ai2 已在 GitHub 同步開源了 MolmoAct-7B 的完整資源(https://github.com/allenai/MolmoAct),官方強調,這些資源與工具可以幫助其他研究團隊在不同機器人平臺和任務中充分驗證與優化。
本文鏈接:http://www.tebozhan.com/showinfo-45-26176-0.html可實現三重空間感知:Ai2 開源具身機器人 AI 模型 MolmoAct
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: iPhone 17系列全面革新,iPhone 16 Pro Max大幅降價清庫存
下一篇: 谷歌開源 Gemma 家族最輕量模型 Gemma 3 270M:2.7 億參數可靈活用于 手機平板端側及 Web 環境