3 月 12 日晚間,谷歌 DeepMind 在機器人 AI 領域扔下 “重磅炸彈”,一口氣推出兩款新型 AI 模型,為機器人在現實世界中的應用帶來了全新突破。
先來說說 Gemini Robotics,這是一款視覺語言行動模型,它的厲害之處在于,能讓機器人在沒有經過專門訓練的情況下,迅速理解并適應全新的場景。Gemini Robotics 是基于谷歌的旗艦 AI 模型 Gemini 2.0 開發的,就像是給 Gemini 2.0 裝上了 “現實行動” 的翅膀。
谷歌 DeepMind 機器人部門的高級總監 Carolina Parada 介紹,Gemini Robotics 借助 Gemini 2.0 強大的多模態理解能力,融入物理行動這一新模態,成功打通了 AI 與現實世界交互的通道。在通用性、互動性和靈活性這三個機器人高效運作的關鍵領域,Gemini Robotics 都取得了顯著進展。它不僅能應對各種新情況,在與人類和周圍環境互動時表現得更加出色,還能完成像折紙、開瓶蓋這類精細的物理操作。
另一款 Gemini Robotics - ER(具象推理)模型也不容小覷,它被視為一種先進的視覺語言模型,具備 “理解復雜動態世界” 的能力。Parada 舉例說,當我們準備裝便當盒時,需要考慮桌上物品的擺放位置和操作方式,而 Gemini Robotics - ER 就是為解決這類推理任務而設計的。機器人專家可以通過它與現有的低級控制系統對接,為機器人解鎖更多新功能。
本文鏈接:http://www.tebozhan.com/showinfo-27-137073-0.html谷歌 DeepMind 放大招:新 AI 模型賦能機器人 “自學成才”
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com