斯坦福李飛飛創業后,首次揭秘新概念“空間智能”。這不僅是她的創業方向,也是指引她的“北極星”,被她認為是“解決人工智能難題的關鍵拼圖”。
視覺化為洞察;看見成為理解;理解導致行動。
李飛飛最新 15 分鐘 TED 演講完整公開,從數億年前生命進化的起源開始,到人類如何不滿足于自然賦予而發展人工智能,到下一步如何構建空間智能。
而 9 年前,正是在同一個舞臺上,李飛飛向世界介紹了剛誕生不久的 ImageNet—— 這一輪深度學習爆發的起點之一。
她本人也向網友自我安利:如果把兩個視頻都看了,你就能對過去 10 年的計算機視覺、空間智能和 AI 有很好的了解。
下面在不改變其原意的基礎上,我們對李飛飛演講內容做整理。
空間智能,讓 AI 理解現實世界生物視覺的進化讓我向你展示一些東西,確切地說,我將向你展示“空無一物”。
這是 5.4 億年前的世界。純粹、無盡的黑暗。它之所以黑暗,并不是因為缺少光線。它之所以黑暗,是因為缺少視覺。
盡管陽光能夠穿透海洋表面下 1000 米,來自海底熱泉噴口的光線也能滲透到海底,充滿了生命的海底,但這些古老的水域中找不到一只眼睛。
沒有視網膜,沒有角膜,沒有晶狀體。所以所有這些光線,所有這些生命,都未被看見。
曾經有一段時間,“看到”的概念還不存在。它曾經從未被實現過,直到它被實現了。
出于某種我們才開始理解的原因,能夠感知光線的第一批生物 —— 三葉蟲出現了。它們是最早一批能夠感知我們習以為常的現實的生物。它們是最早一批發現除了自己之外還有其他事物存在的生物。
世界第一次充滿眾多“自我”。
視覺能力被認為引發了寒武紀大爆發,一個動物物種大量進入化石記錄的時期。最初是被動體驗,簡單讓光線進入的行為,很快變得更加主動,神經系統開始進化。
視覺變成了洞察力。看變成了理解。理解導致了行動。
所有這些都催生了智能。
計算機視覺的崛起今天,我們不再滿足于自然界賦予的視覺能力。好奇心驅使我們創造機器,希望其視覺能力至少和我們一樣,甚至更好。
九年前,在這個舞臺上,我提交了一份關于計算機視覺的早期進展報告。
當時,三個強大的力量首次匯聚在一起:
一類稱為神經網絡的算法
快速、專門的硬件,稱為圖形處理單元,或 GPU
再加上大數據,比如我的實驗室花數年時間整理的 1500 萬張圖像,稱為 ImageNet。
它們共同迎來了現代人工智能時代。
從那時起到現在,我們已經走了相當遠。
最開始,僅僅給圖像貼上標簽就是一個重大突破,但算法的速度和準確性迅速提高。
由我的實驗室主辦的年度 ImageNet 挑戰賽衡量了這一進展。在這張圖表中,可以看到每年模型能力的提高,和其中一些里程碑模型。
我們更進一步,創建了能夠分割視覺對象或預測它們之間動態關系的算法,這些工作是由我的學生和合作者完成的。
還有更多。
回想上次演講我展示的第一個計算機視覺算法,AI 可以用人類的自然語言描述一張照片。那是我和聰明的學生 Andrej Karpathy 一起完成的工作。
當時,我大膽地說:“Andrej,我們能讓計算機做相反的事情嗎?”Andrej 笑著說:“哈哈,那是不可能的。”
好吧,正如您今天看到的,不可能已經變得可能。
這要歸功于一系列擴散模型,為當今的生成式 AI 算法提供動力,可以將人類的提示詞轉化為照片和視頻,創造出全新的事物。
你們中許多人已經看到了 OpenAI 的 Sora,最近取得令人印象深刻的成果。不過,早在幾個月前,在沒有大量 GPU 的情況下,我的學生和合作者們就開發出了一個名為 Walt 的 AI 視頻生成模型。
△Walt 發表于 2023 年 12 月
這里還有改進的空間,看看那只貓的眼睛,它在波浪下從未被弄濕,好一個災~難~(cat-astrophe)。
(諧音梗扣錢!)
空間智能:僅僅看是不夠的過去是一個序章,我們將從這些錯誤中學習,并創造一個我們想象中的未來。在這個未來,我們希望 AI 盡其所能為我們做事,或幫助我們做事。
多年來,我一直在說拍照和看到和理解不是一回事。今天,我想再補充一點:僅僅看是不夠的。
看,是為了行動和學習。
當我們在 3D 時空中采取行動時,我們學習,我們學會更好地看,更好地做事。大自然通過“空間智能”創造了一個看和行動的良性循環。
為了展示空間智能是什么,請看這張照片。如果你有想要做點什么的沖動,就舉起手。
在一剎那,你的大腦觀察了這個杯子的幾何形狀,它在 3D 空間中的位置,它與桌子、貓和所有其他物體的關系,而且你可以預測接下來會發生什么。
行動的沖動是所有具有空間智能的生物固有的,它將感知與行動聯系起來。
如果我們想讓 AI 超越當前能力,我們不僅想要能夠看到和說話的 AI,我們想要能夠行動的 AI。
事實上,我們正在取得令人興奮的進展。
空間智能的最新里程碑是教計算機看到、學習、行動,并學習看到和行動得更好。
而這并不容易。
大自然花費了數百萬年時間進化出空間智能,眼睛捕捉光線,將 2D 圖像投射到視網膜上,大腦將這些數據轉換成 3D 信息。
直到最近,一群來自谷歌的研究人員才開發出一種算法,將一組照片轉換成 3D 空間。
我的學生和合作者們更進一步,創建了一個將單個圖像變成 3D 形狀的算法。
密歇根大學的一組研究人員找到了一種方法,將句子轉換成 3D 房間布局。
我在斯坦福大學的同事和他的學生們開發了一種算法,可以從單個圖像生成無限可能的空間,供觀眾探索。
這些就是未來可能性的的原型。在這個可能性中,人類可以將我們的整個世界轉化為數字形式,并模擬其豐富和細微之處。
大自然在我們每個人的頭腦中隱性地做了什么,空間智能技術有望能為我們的集體意識(collective consciousness)做同樣的事情。
隨著空間智能的加速進步,一個新時代在這個良性循環中正在我們眼前展開。這種循環正在催化機器人學習,這是任何需要理解和與 3D 世界互動的具身智能系統的關鍵組成部分。
十年前,我的實驗室的 ImageNet 使數百萬張高質量照片的數據庫成為可能,幫助訓練計算機視覺。
今天,我們正在做類似的事情,訓練計算機和機器人如何在 3D 世界中行動。
這次我們不是收集靜態圖像,而是開發由 3D 空間模型驅動的模擬環境,以便計算機可以學習行動的無限可能性。
你剛剛看到的是教導我們的機器人的一小部分例子,這是一個由我的實驗室領導的項目,稱為 Behavior。
我們也在機器人語言智能方面取得了令人興奮的進展。
使用基于大型語言模型的輸入,我學生以及合作者是第一批展示機械臂可以根據口頭指令執行各種任務的團隊之一。
比如打開這個抽屜或拔掉電話線。或者制作三明治,使用面包、生菜、西紅柿,甚至為用戶放一張餐巾紙。通常情況下我希望三明治更豐富一些,但這是一個好的起點。
在古老時代的原始海洋中,能夠看到和感知環境的能力引發了與其他生命形式互動的寒武紀大爆發。
今天,那道光正在達到數字思維。
空間智能不僅允許機器與彼此互動,而且還能與人類,以及真實或虛擬的 3D 世界互動。
隨著這個未來成形,它將對許多生命產生深遠的影響。
讓我們以醫療保健為例。在過去的十年中,我的實驗室一直在做初步努力,將 AI 應用于解決影響患者結果和醫療人員疲勞的挑戰。
與來自斯坦福醫學院的合作者和其他合作醫院一起,我們正在試驗一些智能傳感器,可以檢測到臨床醫生是否在沒有正確洗手的情況下進入病人房間。或跟蹤手術器械,或在病人身體面臨風險,如跌倒時提醒護理團隊。
我們認為這些技術是一種環境智能,就像額外的眼睛。
但我更希望為我們的患者、臨床醫生和護理人員提供更多的互動幫助,他們迫切需要額外的一雙手。
想象一下,一個自主機器人在護理人員專注于病人的同時運輸醫療用品,或者用增強現實技術,引導外科醫生進行更安全、更快、更少侵入性的操作。
再想象一下,嚴重癱瘓的病人可以用他們的思想控制機器人。沒錯,用腦電波來執行你和我習以為常的日常任務。
這是最近我的實驗室進行的一項試點研究。在這個視頻中,機器人手臂僅通過大腦電信號控制,正在烹飪一頓日本壽喜鍋餐。其中信號非侵入性地通過 EEG 帽收集。
五億年前,視覺的出現顛覆了黑暗的世界,引發了最深刻的進化過程:動物世界的智能發展。
過去十年 AI 的進步同樣令人驚嘆。但我相信,直到我們為計算機和機器人賦予空間智能,就像大自然對我們所有人所做的那樣,這場數字寒武紀大爆發的全部潛力才會完全展現。
這是一個激動人心的時刻,教我們的數字伙伴學會推理,和與我們稱之為家的這個美麗的 3D 空間互動,同時也創造更多我們可以探索的新世界。
實現這一未來并不容易,它要求我們所有人深思熟慮,開發始終以人為本的技術。
但如果我們做得好,由空間智能驅動的計算機和機器人不僅會成為有用的工具,還會成為值得信賴的伙伴,在尊重個人尊嚴的同時,提高我們的生產力、增強我們的人性,提升我們的集體繁榮。
在所有未來中我最興奮的,是一個 AI 變得更有感知、有洞察和空間意識,并與我們一道追求創造更好的世界的方法。
(全文完)
視頻回放:
https://www.ted.com/talks/fei_fei_li_with_spatial_intelligence_ai_will_understand_the_real_world/transcript
參考鏈接:
[1]https://x.com/drfeifei/status/1790811274684584257
本文來自微信公眾號:量子位 (ID:QbitAI),作者:夢晨
本文鏈接:http://www.tebozhan.com/showinfo-45-4307-0.html李飛飛揭秘創業方向“空間智能”:視覺化為洞察,看見成為理解,理解導致行動
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com