本文經(jīng)AI新媒體量子位(公眾號(hào)ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請(qǐng)聯(lián)系出處。
這年頭,AI玩家們想找到合適的圖像數(shù)據(jù)集,簡(jiǎn)直是越來(lái)越難了。
不僅數(shù)據(jù)質(zhì)量參差不齊,合適的數(shù)據(jù)類型也難找(如光流圖、深度圖等)。
為了解決這些問(wèn)題,來(lái)自谷歌、MIT、DeepMind、MILA和劍橋大學(xué)等11家機(jī)構(gòu)的34名研究人員,聯(lián)手打造了一個(gè)名叫Kubric的數(shù)據(jù)集生成器,不僅能自己渲染,而且圖像效果也非常真實(shí)。
不僅各種圖像數(shù)據(jù)都能做,像語(yǔ)義分割、深度圖或光流圖這種“特殊數(shù)據(jù)”都能一鍵生成:
還能控制渲染的真實(shí)度,渲染出的視頻可以達(dá)到以假亂真的效果:
據(jù)作者們表示,目前Kubric支持13類CV任務(wù)的數(shù)據(jù)類型生成,效果也不比用已有數(shù)據(jù)集訓(xùn)練出來(lái)的差。
這樣的一個(gè)數(shù)據(jù)集生成器,到底要怎么上手?
可生成13類CV任務(wù)所需數(shù)據(jù)
先來(lái)看看這個(gè)Kubric數(shù)據(jù)集生成器究竟是個(gè)啥。
簡(jiǎn)單來(lái)說(shuō),它有點(diǎn)像是一個(gè)專為圖像AI打造的“數(shù)據(jù)車間”,基于跨平臺(tái)開(kāi)源物理引擎PyBullet和3D圖像渲染軟件Blender打造。
其中,PyBullet給用戶提供了一個(gè)模擬3D物體運(yùn)動(dòng)的平臺(tái),例如兩個(gè)球之間的彈性碰撞參數(shù)就可以用它來(lái)模擬。(當(dāng)然,除了PyBullet以外,也可以擴(kuò)展到其他物理引擎如MuJoCo上)
Blender則是一個(gè)渲染3D動(dòng)畫(huà)的平臺(tái),但它的優(yōu)勢(shì)在于操作方便,而且既可以做出照片級(jí)逼真的渲染圖像,也可以輸出3D動(dòng)畫(huà)效果。(例如有設(shè)計(jì)師拿它設(shè)計(jì)服裝紋理)
可能這時(shí)候你會(huì)問(wèn),Kubric相比自己手動(dòng)渲染視頻或圖像數(shù)據(jù)集,方便在哪?
一方面,Kubric自帶一系列預(yù)處理的基礎(chǔ)圖像數(shù)據(jù)庫(kù)。
除了11個(gè)基礎(chǔ)3D模型以外:
還內(nèi)置了Google Scanned Objects(GSO)室內(nèi)家具物品數(shù)據(jù)集中的一系列模型,以及包含背景、光照、材料紋理等參數(shù)的Polyhaven數(shù)據(jù)集,還有ShapeNet數(shù)據(jù)集等(包含55種常見(jiàn)的物品類型及51300個(gè)3D模型)。
也就是說(shuō),如果你對(duì)渲染不太了解,也能利用內(nèi)置的數(shù)據(jù)庫(kù)快速生成想要的圖像。
另一方面,Kubric直接提供了從“渲染數(shù)據(jù)”到輸出“AI訓(xùn)練數(shù)據(jù)”的管道,省去了將渲染圖像轉(zhuǎn)成特殊數(shù)據(jù)(如深度圖、光流圖)、或是額外收集如視場(chǎng)、相機(jī)參數(shù)、光照等數(shù)據(jù)的麻煩。
這也使得Kubric支持生成13類CV任務(wù)所需的圖像數(shù)據(jù),具體包括光流、NeRF、姿態(tài)估計(jì)、3D重建等。
沒(méi)錯(cuò),即使這些生成的圖像中有2D也有3D類型,需要的數(shù)據(jù)量也從MB到TB級(jí)別不等,但Kubric都能滿足。
嗯,作者們還專門(mén)針對(duì)各種視覺(jué)任務(wù),用Kubric生成的數(shù)據(jù)集一個(gè)個(gè)試了試,強(qiáng)調(diào)“用他們生成的數(shù)據(jù)集效果更好”。
△Kubric生成的光流圖
那么,這樣的數(shù)據(jù)集生成器究竟要怎么用呢?
自帶Python接口
作者提供了一些簡(jiǎn)單的操作流程。
在安裝之后,第一步就是創(chuàng)建默認(rèn)場(chǎng)景:
然后,再通過(guò)這兩步,分別創(chuàng)建一塊地板、和一個(gè)球體(也可以換成其他形狀):
接下來(lái)就是在場(chǎng)景中加一個(gè)照明,以及渲染攝像頭采集圖像:
導(dǎo)出文件后,就能獲取一個(gè)3D球體的圖像了:
△Blender中的效果
如果需要深度圖、灰度圖等特殊圖層的話,也是幾行代碼就能搞定:
比自己手動(dòng)導(dǎo)出要更方便一些:
當(dāng)然,如果還是感覺(jué)上手較難,作者也直接提供了示例代碼,改改參數(shù)就能用:
在原基礎(chǔ)上,再加5行代碼就能直接運(yùn)行出動(dòng)態(tài)視頻版:
看起來(lái),做完數(shù)據(jù)集后,即使不懂渲染的也能成為半個(gè)行家了(doge)
目前新的一批內(nèi)置數(shù)據(jù)集還在施工中,感興趣的小伙伴可以先上手試玩~
項(xiàng)目地址:
https://github.com/google-research/kubric
論文地址:
https://arxiv.org/abs/2203.03570
本文鏈接:http://www.tebozhan.com/showinfo-119-2224-0.html這個(gè)CV數(shù)據(jù)集生成器火了,支持13類CV任務(wù),DeepMind等打造
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 讓圖網(wǎng)絡(luò)更穩(wěn)健!谷歌提出SR-GNN,無(wú)懼?jǐn)?shù)據(jù)標(biāo)記偏差和領(lǐng)域轉(zhuǎn)移