AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

Stable Diffusion 3 開源倒計時,2B 單機可跑碾壓閉源 Midjourney

來源: 責編: 時間:2024-06-17 17:34:22 139觀看
導讀 【新智元導讀】重磅消息!Stable Diffusion 3,大概率會在明天開源。距離 2 月 SD3 的橫空出世,已經過去了 4 個月。如果此事為真,生圖圈子第一個出現開源碾壓閉源的奇景!強大的 MMDiT 全新架構,將徹底改變 AI 生圖的

【新智元導讀】重磅消息!Stable Diffusion 3,大概率會在明天開源。距離 2 月 SD3 的橫空出世,已經過去了 4 個月。如果此事為真,生圖圈子第一個出現開源碾壓閉源的奇景!強大的 MMDiT 全新架構,將徹底改變 AI 生圖的格局?,F在,全體 AI 社區都在翹首以盼。sW128資訊網——每日最新資訊28at.com

萬眾矚目的 Stable Diffusion 3,終于要正式開源了!sW128資訊網——每日最新資訊28at.com

幾天前,在 Computex 2024 大會上,Stability AI 聯合首席執行官 Christian Laforte 正式官宣:SD 3 Medium 將在 6 月 12 日公開發布。sW128資訊網——每日最新資訊28at.com

據悉,之后還會開源 4B 和 8B 的版本。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

消息一出,網友們就激動地奔走相告。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

種種跡象表明,SD3 明天的開源應該是鐵板釘釘了。sW128資訊網——每日最新資訊28at.com

目前,ComfyUI 已經提交了對 SD3 支持的版本。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

網友表示,如果此事是真的,那可就太瘋狂了,生圖圈子將成第一個開源碾壓閉源的賽道!sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

這邊 AI 生圖王者 Midjourney 剛剛放出功能更新,網友們就在評論區紛紛留言:SD3 一旦開源,你們就完蛋了。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

網友們紛紛搬好板凳,坐等 SD3 的權重發布了。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

欠債 1 億的獨角獸,仍堅持做開源英雄?

兩個月前,Stable Diffusion 3 一橫空出世,立刻在人類偏好評估中斬下 DALL-E 3 和 Midjourney v6,一舉成為該領域的 SOTA。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

因為攻克了 AI 圖像生成領域著名的「正確性」測試,SD3 一時名聲大噪,引發了極大熱度。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

雖然放出的模型效果驚艷全網,但選擇開源也讓公司的收入入不敷出。隨后就是滿身黑歷史的 CEO 跑路、人才出走等負面事件,讓 Stability AI 這頭獨角獸的前途風雨飄搖,一度陷入欠下 1 億美元的「賣身」傳聞。sW128資訊網——每日最新資訊28at.com

在鼎盛時期的 Stability AI 收到過不少橄欖枝,卻斷然拒絕收購。然而虧損超 3000 萬美元、拖欠 1 億美元賬單的事實,揭示了所有開源公司共同的困境 ——sW128資訊網——每日最新資訊28at.com

如果選擇將代碼、權重和產品 API 免費開放,即便保留部分高級功能,也很難吸引到付費用戶。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

如果在這種情況下,SD3 依然堅持開源,叫 Stability AI 一聲「開源英雄」絕不為過。sW128資訊網——每日最新資訊28at.com

強大的架構、更好的明暗對比度、提示遵循、訓練結果、模型合并、圖像分辨率……SD3 的開源給我們帶來的貢獻可太多了!sW128資訊網——每日最新資訊28at.com

現在,所有人都在翹首以盼。sW128資訊網——每日最新資訊28at.com

將對開源社區影響重大

Stable Diffusion3 的開源,為何意義如此重大?sW128資訊網——每日最新資訊28at.com

在 reddit 的 StableDiffusion 社區,一位網友給出了以下總結,讓我們從非技術視角,理解 SD3 的重要性,以及對 AI 社區的重大影響。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

作者表示,自己希望能讓外行人都明白,為何 Stable Diffusion 3 如此重要。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

曾經 Stable Diffusion 的開源,就改變了游戲規則sW128資訊網——每日最新資訊28at.com

VAE 是無名英雄

VAE(變分自編碼器)非常特別,因為它讓提供了 16 個通道的特征和顏色數據供我們使用,而之前的模型只有 4 個通道。sW128資訊網——每日最新資訊28at.com

下面的四張圖顯示出,這將產生多大的影響。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

Emu 論文地址:https://arxiv.org/pdf/2309.15807sW128資訊網——每日最新資訊28at.com

這也就意味著,模型在訓練時會捕獲更多細節。sW128資訊網——每日最新資訊28at.com

不僅模型的質量會更好,而且實際上會帶來更快的訓練速度,從而使主要的 MMDiT 模型(也就是實現生成的主要模型)能夠更好地捕捉細節。sW128資訊網——每日最新資訊28at.com

感興趣的讀者可以閱讀下面這篇技術性解讀:sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

文章地址:https://huggingface.co/blog/TimothyAlexisVass/explaining-the-sdxl-latent-space#the-8-bit-pixel-space-has-3-channelssW128資訊網——每日最新資訊28at.com

與舊的模型相比,新的 16 通道 VAE 在 512x512 分辨率下的表現,可以說令人難以置信 —— 即使在較小的圖像尺寸下,通道維度上的特征數量也足以捕捉到很好的細節。sW128資訊網——每日最新資訊28at.com

為了更好地說明這一點,我們可以用視頻領域的標準來做個類比 ——sW128資訊網——每日最新資訊28at.com

VHS 和 DVD 都是標準定義的 480i / 480p,但 DVD 顯然捕捉到了更多細節,甚至在硬件和軟件的升頻器上表現也很好。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

或者,可以用復古游戲玩家的說法來類比 ——sW128資訊網——每日最新資訊28at.com

復合視頻線(Composite cables) -> SD1.X 的 VAEsW128資訊網——每日最新資訊28at.com

S-Video 線 -> SDXL 的 VAEsW128資訊網——每日最新資訊28at.com

組件視頻線(Component cables) -> SD3 的 VAEsW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

因此,將 VAE 應用到如今我們的 AI 工作流程中,一切都將變得更加高效。sW128資訊網——每日最新資訊28at.com

在視頻生成方面,則可以在低分辨率下訓練以適應虛擬內存(VRAM),然后通過分辨率增強流程來保留細節。sW128資訊網——每日最新資訊28at.com

我們不需要訓練 / 微調文本編碼器了

眾所周知,訓練文本編碼器可以提升基于 SD1.X 模型和 SDXL 模型的性能。sW128資訊網——每日最新資訊28at.com

然而在這位網友看來,從長遠來看,這其實是低效的,因為在實際應用中存在大量的微調和模型合并。sW128資訊網——每日最新資訊28at.com

這會在推理過程中導致大量的重新加權,從而引起混亂,使得在創作過程中捕捉細節變得更加困難。sW128資訊網——每日最新資訊28at.com

雖然在小規模應用中可以這樣做,但隨著社區的擴大,訓練文本編碼器就變得極其繁瑣了。sW128資訊網——每日最新資訊28at.com

從技術角度來看,CLIP 模型本身就很難訓練和微調,因此如果嘗試同時處理三個模型,可能會面臨一場艱難的苦斗。sW128資訊網——每日最新資訊28at.com

而現在,我們或許根本不需要微調文本編碼器了!sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

第一個原因是,VAE 相比舊模型,捕捉了更多的細節。sW128資訊網——每日最新資訊28at.com

第二個原因則是,無論我們使用哪種變體,SD3 都經過了適當且魯棒的 caption 訓練,以捕捉大多數人認為重要的所有細節。sW128資訊網——每日最新資訊28at.com

在 SD3 中,可以讓新的架構和 VAE 為我們捕捉這些細節,這樣我們就可以更好地利用多個 LoRA 模型,實現更魯棒的生成。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

加速新的 AI 研究

目前,生成式 AI 社區和 LLM 社區之間還缺乏一定的協作。sW128資訊網——每日最新資訊28at.com

在這位網友看來,隨著 MMDiT 架構更好地與 LLM 社區對齊,會有更多的開發者進入生成式 AI 社區,帶來大量豐富的研究和方法。sW128資訊網——每日最新資訊28at.com

這將造成的影響,或許是十分重大的。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

此前,LLM 社區就創建了很多應用于生成式 AI 的偉大方法(比如 LoRA 就是從文本建模中派生出來的),然而,由于架構之間缺乏互操作性操作性(當前 SD 使用的是 UNet,SD3 使用的是 Transformer 塊),會讓許多人望而卻步。sW128資訊網——每日最新資訊28at.com

如果兩個領域的開發者和研究者開始合作,擴展許多跨領域的多模態功能,比如文本、圖像、音頻、視頻等,比如會創造出許多獨屬于開源社區的非常棒的體驗。sW128資訊網——每日最新資訊28at.com

舊方法更加完善

自從 Stable Diffusion 誕生以來,我們可以在眨眼間生成圖像、視頻、音頻,甚至 3D 模型。sW128資訊網——每日最新資訊28at.com

如今在谷歌 Scholar 上,關于 Stable Diffusion 的論文已經有 7500 多篇了。sW128資訊網——每日最新資訊28at.com

微調方法、ControlNet、適配器、分段方法等理論,在 SD 上應該會比從前的架構表現得更好。sW128資訊網——每日最新資訊28at.com

而且因為架構簡單,模型會變得更易訪問和使用。sW128資訊網——每日最新資訊28at.com

事實上,由于 SD3 的強大圖像-文本對齊和 VAE,有些方法可能我們再也不需要了。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

比如在音頻擴散、視頻擴散和 3D 擴散模型領域,就可以在新架構上用這些方法訓練,進一步提高模型的質量和魯棒性。sW128資訊網——每日最新資訊28at.com

顯然,ControlNets 和適配器會變得更好,因為 SD3 實際上是使用多模態架構構建的。sW128資訊網——每日最新資訊28at.com

這也就意味著,SD3 在不同模態之間,會有更好的關系理解。sW128資訊網——每日最新資訊28at.com

如今我們在構建新方法時,就可以在同一空間內利用這些模態,再結合上更好的文本理解和強大的 VAE,SD3 的前途簡直不可限量!sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

CEO「跑路」,開源成謎

趕在 2 月份的時候,Stable Diffusion 迭代到了第 3 個版本。sW128資訊網——每日最新資訊28at.com

然而僅一個月的時間,背后核心團隊卻被曝出集體離職。sW128資訊網——每日最新資訊28at.com

更讓人意想不到的是,身為 CEO 的 Emad 也緊跟辭職,退出了董事會。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

顯然,SD3 隨后的開源,也變得迷霧重重。sW128資訊網——每日最新資訊28at.com

當時,外界的猜測是,Stability AI 的動蕩是 Emad 一手釀成的。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

彭博對 20 位現任前任員工、投資者等采訪了解到,Emad 在治理公司方面缺乏經驗,組織結構混亂。sW128資訊網——每日最新資訊28at.com

更有甚者,公司還習慣性地拖欠工資和稅款。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

Emad 近日又成立了一家初創公司 Schelling AI,專注去中心化 AI 系統sW128資訊網——每日最新資訊28at.com

其實,在 23 年底,公司內部不穩定的現象已經出現了苗頭。sW128資訊網——每日最新資訊28at.com

作為聯創之一的 Cyrus Hodes 便起訴 Emad 是個「騙子」。sW128資訊網——每日最新資訊28at.com

他指控,在公司進行重大融資幾個月前,Emad 曾誘騙自己以 100 美元價格出售 15% 股份。sW128資訊網——每日最新資訊28at.com

其實,Stability AI 創立之后,便以模型「開源」深受社區關注和好評。sW128資訊網——每日最新資訊28at.com

它先后發布了多款模型「全家桶」,包括語言模型 Stable LM、視頻模型 Stable Video Diffusiion、音頻模型 Stable Audio。sW128資訊網——每日最新資訊28at.com

而比起具有里程碑意義的 Stable Diffusion,一代和二代模型系列在開源社區有 300-400 萬下載量。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

在開源背后,需要的是 Stability AI 不斷開啟「燒錢」模式。sW128資訊網——每日最新資訊28at.com

但顯然,這種入不敷出的方式,根本無法支撐這家公司持續性發展。sW128資訊網——每日最新資訊28at.com

前段時間,Information 爆料稱,Stability AI 第一季度的營收不足 500 萬美元。而且,公司虧損超過了 3000 萬美元,還對外拖欠了近 1 億美元的巨額賬單。sW128資訊網——每日最新資訊28at.com

更有傳聞稱,Stability AI 正尋求賣身。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

而在 SD3 發布之后,官方宣布稱在對齊之后正式開源,結果等了 3 個多月,依然只是 API 的開放。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

有 Reddit 網友在線發起了提問,為 Stability AI 尋求賺錢出路,以保證 SD3 能夠順利放出。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

20 億參數版本先上線

好在,ComputeX 大會上,終于等到了 SD3 的官宣開源。sW128資訊網——每日最新資訊28at.com

一些網友紛紛收到了 Stability AI 郵件,即將開源的 SD3 Medium 是一個 20 億參數的模型。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

不過,有人對此質疑道,「Stability AI 愚弄了所有的人,他們開源的是一個名為『SD3 Medium』的模型,其實內部還有 Large 和 X-Large 版本還未發布,這才是人們期待的真正的 SD3」。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

關于更大版本的開源,Stability AI 自家員工表示,40 億、80 億參數的版本未來都將會陸續上線。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

Stable Diffusion 3 技術回顧

SD3 的誕生已經在圖像質量、多個對象、拼寫能力方面,都得到了顯著提升,讓 AI 生圖再創新里程碑。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

發布當天,前 CEO Emad 承諾道,SD3 未來將會開源,目前還在測試階段。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

甚至,它還涌現出了對物理世界的理解。sW128資訊網——每日最新資訊28at.com

緊接著 3 月,Stability AI 公布了新模型最詳實的技術報告。sW128資訊網——每日最新資訊28at.com

論文中,首次介紹了 Stable Diffusion 3 背后核心技術 —— 改進版的 Diffusion 模型和一個基于 DiT 的文生圖全新架構!sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

論文地址:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/ Stable+Diffusion+3+Paper.pdfsW128資訊網——每日最新資訊28at.com

與之前的版本對比,SD3 明顯在圖像質量生成上,實現了很大的改進,不僅支持多主題提示。sW128資訊網——每日最新資訊28at.com

最重要的是,文字拼寫的效果也變好了。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

這一切竟是因為,其背后框架的改進和創新。sW128資訊網——每日最新資訊28at.com

它用上了與 Sora 同樣的 DiT 架構,靈感來源于紐約大學助理教授謝賽寧的研究。sW128資訊網——每日最新資訊28at.com

而在以前的 Stable Diffusion 版本中,并未采用 Transformer 技術。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

在文生圖的任務中,SD3 需要同時考慮文本 + 圖像兩種模態。sW128資訊網——每日最新資訊28at.com

因此,研究者提出了一種全新的架構,稱為 ——MMDiT(多模態 Diffusion Transformer),專為處理這種多模態的能力。sW128資訊網——每日最新資訊28at.com

具體而言,模型采用了三種不同的文本嵌入模型 —— 兩個 CLIP 模型和一個 T5 ,來處理文本信息。sW128資訊網——每日最新資訊28at.com

與此同時,還采用了一個自編碼模型來編碼圖像 token。sW128資訊網——每日最新資訊28at.com

因為文本和圖像嵌入在概念上有很大不同,下圖右中可以看出,研究者對兩種模態使用了兩種不同的權重。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

基于這種獨特的架構,使得圖像和文本信息之間可以相互流動和交互,從而在生成的結果中提高對內容的整體理解和視覺表現。sW128資訊網——每日最新資訊28at.com

而且,這種架構未來還可以輕松擴展到其他包括視頻在內的多種模態。sW128資訊網——每日最新資訊28at.com

實驗評估中,SD3 在人類偏好評估中超越了 DALL-E 3 和 Midjourney v6,成為該領域的 SOTA 模型。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

而且,SD3 是一個模型系列,提供了 8 億到 80 億參數版本,意味著可以在終端設備可跑,大大降低了 AI 應用的門檻。sW128資訊網——每日最新資訊28at.com

網友們對此激動不已,紛紛催更他們快速上線。sW128資訊網——每日最新資訊28at.com

SD3 開源倒計時開啟,接下來坐等上手了。sW128資訊網——每日最新資訊28at.com

sW128資訊網——每日最新資訊28at.com

參考資料:sW128資訊網——每日最新資訊28at.com

https://x.com/op7418/status/1800455685068771643sW128資訊網——每日最新資訊28at.com

https://x.com/StabilityAI/status/1797462536117444794sW128資訊網——每日最新資訊28at.com

https://www.reddit.com/r/StableDiffusion/comments/1d6t0gc/sd3_release_on_june_12/sW128資訊網——每日最新資訊28at.com

https://www.reddit.com/r/StableDiffusion/comments/1dcuval/comment/l80v9an/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_buttonsW128資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)sW128資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-4632-0.htmlStable Diffusion 3 開源倒計時,2B 單機可跑碾壓閉源 Midjourney

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 字節跳動火山方舟大模型平臺向個人開發者開放,提供 50 萬 tokens 免費推理額度

下一篇: 振興鄉村發展 助力青少年教育 中國三星連續十一年蟬聯企業社會責任榜外企第一

標簽:
  • 熱門焦點
Top