AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁(yè) > 元宇宙 > AI

RTX 4090 筆記本 0.37 秒直出大片:英偉達(dá)聯(lián)手 MIT 清華祭出 Sana 架構(gòu),速度秒殺 FLUX

來源: 責(zé)編: 時(shí)間:2024-10-21 11:45:51 68觀看
導(dǎo)讀 一臺(tái) 4090 筆記本,秒生 1K 質(zhì)量高清圖。英偉達(dá)聯(lián)合 MIT 清華團(tuán)隊(duì)提出的 Sana 架構(gòu),得益于核心架構(gòu)創(chuàng)新,具備了驚人的圖像生成速度,而且最高能實(shí)現(xiàn) 4k 分辨率。一臺(tái) 16GB 的 4090 筆記本,僅需 0.37 秒,直接吐出 1024

一臺(tái) 4090 筆記本,秒生 1K 質(zhì)量高清圖。英偉達(dá)聯(lián)合 MIT 清華團(tuán)隊(duì)提出的 Sana 架構(gòu),得益于核心架構(gòu)創(chuàng)新,具備了驚人的圖像生成速度,而且最高能實(shí)現(xiàn) 4k 分辨率。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

一臺(tái) 16GB 的 4090 筆記本,僅需 0.37 秒,直接吐出 1024×1024 像素圖片。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

如此神速 AI 生圖工具,竟是出自英偉達(dá) MIT 清華全華人團(tuán)隊(duì)之筆!正如其名字一樣,Sana 能以驚人速度合成高分辨率、高質(zhì)量,且具有強(qiáng)文本-圖像對(duì)齊能力的模型。9hC28資訊網(wǎng)——每日最新資訊28at.com

而且,它還能高效生成高達(dá) 4096×4096 像素的圖像。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

項(xiàng)目主頁(yè):https://nvlabs.github.io/ Sana/論文地址:https://arxiv.org/ abs / 2410.10629

Sana 的核心設(shè)計(jì)包含了以下幾個(gè)要素:9hC28資訊網(wǎng)——每日最新資訊28at.com

深度壓縮自編碼器(AE):傳統(tǒng)自編碼器只能將圖像壓縮 8 倍,全新 AE 可將圖像壓縮 32 倍,有效減少了潛在 token 的數(shù)量。9hC28資訊網(wǎng)——每日最新資訊28at.com

線性 DiT(Diffusion Transformer):用「線性注意力」替換了 DiT 中所有的普通注意力,在高分辨率下更加高效,且不會(huì)犧牲質(zhì)量。9hC28資訊網(wǎng)——每日最新資訊28at.com

基于僅解碼器模型的文本編碼器:用現(xiàn)代的僅解碼器 SLM 替換 T5 作為文本編碼器,并設(shè)計(jì)了復(fù)雜的人類指令,通過上下文學(xué)習(xí)來增強(qiáng)圖像-文本對(duì)齊。9hC28資訊網(wǎng)——每日最新資訊28at.com

高效的訓(xùn)練和采樣:提出 Flow-DPM-Solver 來減少采樣步驟,并通過高效的標(biāo)題標(biāo)注和選擇來加速收斂。9hC28資訊網(wǎng)——每日最新資訊28at.com

基于以上的算法創(chuàng)新,相較于領(lǐng)先擴(kuò)散模型 Flux-12B,Sana-0.6B 不僅參數(shù)小 12 倍,重要的是吞吐量飆升 100 倍。9hC28資訊網(wǎng)——每日最新資訊28at.com

以后,低成本的內(nèi)容創(chuàng)作,Sana 才堪稱這一領(lǐng)域的王者。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

效果一覽

一只賽博貓,和一個(gè)帶有「SANA」字樣的霓虹燈牌。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

一位站在山頂上的巫師,在夜空中施展魔法,形成了由彩色能量組成的「NV」字樣。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

在人物的生成方面,Sana 對(duì)小女孩面部的描繪可以說是非常地細(xì)致了。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

下面來看個(gè)更復(fù)雜的:9hC28資訊網(wǎng)——每日最新資訊28at.com

一艘海盜船被困在宇宙漩渦星云中,通過模擬宇宙海灘旋渦的特效引擎渲染,呈現(xiàn)出令人驚嘆的立體光效。場(chǎng)景中彌漫著壯麗的環(huán)境光和光污染,營(yíng)造出電影般的氛圍。整幅作品采用新藝術(shù)風(fēng)格,由藝術(shù)家 SenseiJaye 創(chuàng)作的插畫藝術(shù),充滿精致細(xì)節(jié)。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

甚至,像下面這種超級(jí)復(fù)雜的提示,Sana 也能 get 到其中的關(guān)鍵信息,并生成相應(yīng)的元素和風(fēng)格。9hC28資訊網(wǎng)——每日最新資訊28at.com

Prompt:a stunning and luxurious bedroom carved into a rocky mountainside seamlessly blending nature with modern design with a plush earth-toned bed textured stone walls circular fireplace massive uniquely shaped window framing snow-capped mountains dense forests, tranquil mountain retreat offering breathtaking views of alpine landscape wooden floors soft rugs rustic sophisticated charm, cozy tranquil peaceful relaxing perfect escape unwind connect with nature, soothing intimate elegance modern design raw beauty of nature harmonious blend captivating view enchanting inviting space, soft ambient lighting warm hues indirect lighting natural daylight balanced inviting glow9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

順便,團(tuán)隊(duì)還給經(jīng)典梗圖,生成了一個(gè)卡通版變體(右)。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

設(shè)計(jì)細(xì)節(jié)9hC28資訊網(wǎng)——每日最新資訊28at.com

Sana 的核心組件,已在開頭簡(jiǎn)要給出介紹。接下來,將更進(jìn)一步展開它們實(shí)現(xiàn)的細(xì)節(jié)。9hC28資訊網(wǎng)——每日最新資訊28at.com

模型架構(gòu)的細(xì)節(jié),如下表所示。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

- 深度壓縮自編碼器9hC28資訊網(wǎng)——每日最新資訊28at.com

研究人員引入的全新自編碼器(AE),大幅將縮放因子提高至 32 倍。9hC28資訊網(wǎng)——每日最新資訊28at.com

過去,主流的 AE 將圖像的長(zhǎng)度和寬度,只能壓縮 8 倍(AE-F8)。9hC28資訊網(wǎng)——每日最新資訊28at.com

與 AE-F8 相比,AE-F32 輸出的潛在 token 數(shù)量減少了 16 倍,這對(duì)于高效訓(xùn)練和生成超高分辨率圖像(如 4K 分辨率)至關(guān)重要。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

- 高效線性 DiT(Diffusion Transformer)9hC28資訊網(wǎng)——每日最新資訊28at.com

原始 DiT 的自注意力計(jì)算復(fù)雜度為 O (N2),在處理高分辨率圖像時(shí)呈二次增長(zhǎng)。9hC28資訊網(wǎng)——每日最新資訊28at.com

線性 DiT 在此替換了傳統(tǒng)的二次注意力機(jī)制,將計(jì)算復(fù)雜度從 O (N2) 降低到 O (N)。9hC28資訊網(wǎng)——每日最新資訊28at.com

與此同時(shí),研究人員還提出了 Mix-FFN,可以在多層感知器(MLP)中使用 3×3 深度卷積,增強(qiáng)了 token 的局部信息。9hC28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)果顯示,線性注意力達(dá)到了與傳統(tǒng)注意力相當(dāng)?shù)慕Y(jié)果,在 4K 圖像生成方面將延遲縮短了 1.7 倍。9hC28資訊網(wǎng)——每日最新資訊28at.com

此外,Mix-FFN 無需位置編碼(NoPE)就能保持生成質(zhì)量,成為首個(gè)不使用位置嵌入的 DiT。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

- 基于僅解碼器「小語(yǔ)言模型」的文本編碼器9hC28資訊網(wǎng)——每日最新資訊28at.com

這里,研究人員使用了 Gemma(僅解碼器 LLM)作為文本編碼器,以增強(qiáng)對(duì)提示詞的理解和推理能力。9hC28資訊網(wǎng)——每日最新資訊28at.com

盡管 T2I 生成模型多年來取得了顯著進(jìn)展,但大多數(shù)現(xiàn)有模型仍依賴 CLIP 或 T5 進(jìn)行文本編碼,這些模型往往缺乏強(qiáng)大的文本理解和指令跟隨能力。9hC28資訊網(wǎng)——每日最新資訊28at.com

與 CLIP 或 T5 不同,Gemma 提供了更優(yōu)的文本理解和指令跟隨能力,由此解訓(xùn)練了不穩(wěn)定的問題。9hC28資訊網(wǎng)——每日最新資訊28at.com

他們還設(shè)計(jì)了復(fù)雜人類指令(CHI),來利用 Gemma 強(qiáng)大指令跟隨、上下文學(xué)習(xí)和推理能力,改善了圖像-文本對(duì)齊。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

在速度相近的情況下,Gemma-2B 模型比 T5-large 性能更好,與更大更慢的 T5-XXL 性能相當(dāng)。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

- 高效訓(xùn)練和推理策略9hC28資訊網(wǎng)——每日最新資訊28at.com

另外,研究人員還提出了一套自動(dòng)標(biāo)注和訓(xùn)練策略,以提高文本和圖像之間的一致性。9hC28資訊網(wǎng)——每日最新資訊28at.com

首先,對(duì)于每張圖像,利用多個(gè)視覺語(yǔ)言模型(VLM)生成重新描述。盡管這些 VLM 的能力各不相同,但它們的互補(bǔ)優(yōu)勢(shì)提高了描述的多樣性。9hC28資訊網(wǎng)——每日最新資訊28at.com

此外,他們還提出了一種基于 clipscore 的訓(xùn)練策略,根據(jù)概率動(dòng)態(tài)選擇與圖像對(duì)應(yīng)的多個(gè)描述中具有高 clip 分?jǐn)?shù)的描述。9hC28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)表明,這種方法改善了訓(xùn)練收斂和文本-圖像對(duì)齊能力。9hC28資訊網(wǎng)——每日最新資訊28at.com

此外,與廣泛使用的 Flow-Euler-Solver 相比,團(tuán)隊(duì)提出的 Flow-DPM-Solver 將推理采樣步驟從 28-50 步顯著減少到 14-20 步,同時(shí)還能獲得更優(yōu)的結(jié)果。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

整體性能

如下表 1 中,將 Sana 與當(dāng)前最先進(jìn)的文本生成圖像擴(kuò)散模型進(jìn)行了比較。9hC28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于 512×512 分辨率:- Sana-0.6 的吞吐量比具有相似模型大小的 PixArt-Σ 快 5 倍- 在 FID、Clip Score、GenEval 和 DPG-Bench 等方面,Sana-0.6 顯著優(yōu)于 PixArt-Σ9hC28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于 1024×1024 分辨率:- Sana 比大多數(shù)參數(shù)量少于 3B 的模型性能強(qiáng)得多- 在推理延遲方面表現(xiàn)尤為出色9hC28資訊網(wǎng)——每日最新資訊28at.com

與最先進(jìn)的大型模型 FLUX-dev 的比較:- 在 DPG-Bench 上,準(zhǔn)確率相當(dāng)- 在 GenEval 上,性能略低- 然而,Sana-0.6B 的吞吐量快 39 倍,Sana-1.6B 快 23 倍9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

Sana-0.6 吞吐量,要比當(dāng)前最先進(jìn) 4096x4096 圖像生成方法 Flux,快 100 倍。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

而在 1024×1024 分辨率下,Sana 的吞吐量要快 40 倍。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

如下是,Sana-1.6B 與其他模型可視化性能比較。很顯然,Sana 模型生成速度更快,質(zhì)量更高。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

終端設(shè)備部署

為了增強(qiáng)邊緣部署,研究人員使用 8 位整數(shù)對(duì)模型進(jìn)行量化。9hC28資訊網(wǎng)——每日最新資訊28at.com

而且,他們還在 CUDA C++ 中實(shí)現(xiàn)了 W8A8 GEMM 內(nèi)核,并采用內(nèi)核融合技術(shù)來減少不必要的激活加載和存儲(chǔ)帶來的開銷,從而提高整體性能。9hC28資訊網(wǎng)——每日最新資訊28at.com

如下表 5 所示,研究人員在消費(fèi)級(jí) 4090 上部署優(yōu)化前后模型的結(jié)果比較。9hC28資訊網(wǎng)——每日最新資訊28at.com

在生成 1024x1024 圖像方面,優(yōu)化后模型實(shí)現(xiàn)了 2.4 倍加速,僅用 0.37 秒就生成了同等高質(zhì)量圖像。9hC28資訊網(wǎng)——每日最新資訊28at.com

9hC28資訊網(wǎng)——每日最新資訊28at.com

作者介紹Enze Xie(謝恩澤)

9hC28資訊網(wǎng)——每日最新資訊28at.com

共同一作 Enze Xie 是 NVIDIA Research 的高級(jí)研究科學(xué)家,隸屬于由麻省理工學(xué)院的 Song Han 教授領(lǐng)導(dǎo)的高效 AI 團(tuán)隊(duì)。此前,曾在華為諾亞方舟實(shí)驗(yàn)室(香港)AI 理論實(shí)驗(yàn)室擔(dān)任高級(jí)研究員和生成式 AI 研究主管。9hC28資訊網(wǎng)——每日最新資訊28at.com

他于 2022 年在香港大學(xué)計(jì)算機(jī)科學(xué)系獲得博士學(xué)位,導(dǎo)師是 Ping Luo 教授,聯(lián)合導(dǎo)師是 Wenping Wang 教授。并于朋友 Wenhai Wang 密切合作。9hC28資訊網(wǎng)——每日最新資訊28at.com

在攻讀博士學(xué)習(xí)期間,他與阿德萊德大學(xué)的 Chunhua Shen 教授、加州理工學(xué)院的 Anima Anandkumar 教授以及多倫多大學(xué)的 Sanja Fidler 教授共事。同時(shí),還與 Facebook 和 NVIDIA 等業(yè)界的多位研究人員進(jìn)行了合作。9hC28資訊網(wǎng)——每日最新資訊28at.com

他的研究方向是高效的 AIGC / LLM / VLM,并在實(shí)例級(jí)檢測(cè)和自監(jiān)督 / 半監(jiān)督 / 弱監(jiān)督學(xué)習(xí)領(lǐng)域做了一些工作 —— 開發(fā)了多個(gè) CV 領(lǐng)域非常知名的算法,以及一個(gè) 2000 多星的自監(jiān)督學(xué)習(xí)框架 OpenSelfSup(現(xiàn)名為 mmselfsup)。9hC28資訊網(wǎng)——每日最新資訊28at.com

- PolarMask(CVPR 2020 十大影響力論文排名第十)9hC28資訊網(wǎng)——每日最新資訊28at.com

- PVT(ICCV 2021 十大影響力論文排名第二)9hC28資訊網(wǎng)——每日最新資訊28at.com

- SegFormer(NeurIPS 2021 十大影響力論文排名第三)9hC28資訊網(wǎng)——每日最新資訊28at.com

- BEVFormer(ECCV 2022 十大影響力論文排名第六)9hC28資訊網(wǎng)——每日最新資訊28at.com

Junsong Chen

9hC28資訊網(wǎng)——每日最新資訊28at.com

共同一作 Junsong Chen 是 NVIDIA Research 的研究實(shí)習(xí)生,由 Enze Xie 博士和 Song Han 教授指導(dǎo)。同時(shí),他也是大連理工大學(xué) IIAU 實(shí)驗(yàn)室的博士生,導(dǎo)師是 Huchuan Lu 教授。9hC28資訊網(wǎng)——每日最新資訊28at.com

他的研究領(lǐng)域是生成式 AI 和機(jī)器學(xué)習(xí)的交叉,特別是深度學(xué)習(xí)及其應(yīng)用的算法與系統(tǒng)協(xié)同設(shè)計(jì)。9hC28資訊網(wǎng)——每日最新資訊28at.com

此前,他曾在香港大學(xué)擔(dān)任研究助理,由 Ping Luo 教授的指導(dǎo)。9hC28資訊網(wǎng)——每日最新資訊28at.com

Song Han(韓松)

9hC28資訊網(wǎng)——每日最新資訊28at.com

Song Han 是 MIT 電氣工程與計(jì)算機(jī)科學(xué)系的副教授。此前,他在斯坦福大學(xué)獲得博士學(xué)位。9hC28資訊網(wǎng)——每日最新資訊28at.com

他提出了包括剪枝和量化在內(nèi)廣泛用于高效 AI 計(jì)算的「深度壓縮」技術(shù),以及首次將權(quán)重稀疏性引入現(xiàn)代 AI 芯片的「高效推理引擎」——ISCA 50 年歷史上引用次數(shù)最多的前五篇論文之一。9hC28資訊網(wǎng)——每日最新資訊28at.com

他開創(chuàng)了 TinyML 研究,將深度學(xué)習(xí)引入物聯(lián)網(wǎng)設(shè)備,實(shí)現(xiàn)邊緣學(xué)習(xí)。9hC28資訊網(wǎng)——每日最新資訊28at.com

他的團(tuán)隊(duì)在硬件感知神經(jīng)架構(gòu)搜索方面的工作使用戶能夠設(shè)計(jì)、優(yōu)化、縮小和部署 AI 模型到資源受限的硬件設(shè)備,在多個(gè) AI 頂會(huì)的低功耗計(jì)算機(jī)視覺比賽中獲得第一名。9hC28資訊網(wǎng)——每日最新資訊28at.com

最近,團(tuán)隊(duì)在大語(yǔ)言模型量化 / 加速(SmoothQuant、AWQ、StreamingLLM)方面的工作,有效提高了 LLM 推理的效率,并被 NVIDIA TensorRT-LLM 采用。9hC28資訊網(wǎng)——每日最新資訊28at.com

Song Han 憑借著在「深度壓縮」方面的貢獻(xiàn)獲得了 ICLR 和 FPGA 的最佳論文獎(jiǎng),并被 MIT Technology Review 評(píng)選為「35 歲以下科技創(chuàng)新 35 人」。與此同時(shí),他在「加速機(jī)器學(xué)習(xí)的高效算法和硬件」方面的研究,則獲得了 NSF CAREER 獎(jiǎng)、IEEE「AIs 10 to Watch: The Future of AI」獎(jiǎng)和斯隆研究獎(jiǎng)學(xué)金。9hC28資訊網(wǎng)——每日最新資訊28at.com

他是 DeePhi(被 AMD 收購(gòu))的聯(lián)合創(chuàng)始人,也是 OmniML(被 NVIDIA 收購(gòu))的聯(lián)合創(chuàng)始人。9hC28資訊網(wǎng)——每日最新資訊28at.com

參考資料:9hC28資訊網(wǎng)——每日最新資訊28at.com

https://nvlabs.github.io/Sana/9hC28資訊網(wǎng)——每日最新資訊28at.com

https://www.linkedin.com/feed/update/urn:li:activity:7251843706310275072/9hC28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-9172-0.htmlRTX 4090 筆記本 0.37 秒直出大片:英偉達(dá)聯(lián)手 MIT 清華祭出 Sana 架構(gòu),速度秒殺 FLUX

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 谷歌 AI 又闖禍:錯(cuò)把游戲開發(fā)者個(gè)人電話當(dāng)公司電話公布致其被騷擾

下一篇: 榮耀暢玩60Plus新低價(jià),學(xué)生黨&中老年用戶福音?

標(biāo)簽:
  • 熱門焦點(diǎn)
Top