大家還記得 Stable Diffusion嘛,就是那個曾經和 DALL·E 、 Midjourney 齊名的圖像生成 AI 。
經歷了老板跑路,核心開發成員離職,昔日攪動圖像 AI 市場的 Stability AI ,內部已經亂成一鍋粥了。
近幾個月來,關于它資金鏈斷裂、尋求賣身的消息,是沒怎么斷過。
而在前東家身陷狼狽處境,正想法子自救時,年初離開的那批成員,就正正好對標Stable Diffusion 成立了一家新公司Black Forest Lab ( 黑森林實驗室 )。
就在這個月月初,他們宣布成立新公司的時候,也一口氣放出了三個不同體量的文生圖模型 FLUX.1 。
有主打圖片質量的大杯 pro ;兼顧速度和圖片質量的中杯 dev ;還有人稱 “ 速度旋風 ” 的小杯 schnell 。
按照他們官網的說法,大中杯的 FLUX ,已經成了所有圖片 AI 里最厲害的存在。
拆分出來的各項能力,像是視覺質量、尺寸可變性、輸出多樣性等等,也都要比其他模型強不少。
不光官方這么說,在不少網友和媒體的嘴里,剛發布的這個 FLUX ,也已經到了拳打 Midjourney ,腳踢 DALL·E 的程度。
看網上的評論,倒是把世超的興趣給勾起來了。FLUX 是不是真像大伙們說得那么厲害,這次我們拉來了 Midjourney ,把它和大杯的 FLUX 放一塊一起測了測。
開局我們先來一個常規的測試題熱熱身,分別讓它們倆畫一幅中國的水墨畫。
結果表現都還不錯,像漁夫、群山、蘆葦等提示詞里的內容,全都有畫出來。不過 Midjourney 這邊畫得太陽,著實有點太大了,也沒啥夕陽的感覺。
提示詞:
中國水墨畫風格,一個孤獨的漁夫在傳統的木船上,在夕陽下在寧靜的湖面上輕輕漂流,中國水墨畫風格,溫暖的藍色調映照著平靜的水面,柔和的筆觸捕捉著傍晚的寧靜,遠處的群山在漸漸的燈光下剪影,岸邊的傳統小屋,蘆葦在微風中搖曳, 8K 分辨率,電影般的感覺,懷舊而寧靜的氛圍
FLUX ( 左 ), Midjourney ( 右 )
關注圖片 AI 這塊的朋友應該都知道, “ 文字生成太差 ” 幾乎是所有 AI 都再過跟頭的地方。之前 DALL·E 也曾專門針對這個弱項優化過一次,但偶爾也還是會出錯。
而這次,據說 FLUX 在這塊的能力已經是爐火純青了,于是我專門選了幾個要生成文字的提示詞丟給它和 Midjorney 。
先讓它們各自生成一個帶有 Prada 商標的包包,最后給出的答案都還算不錯,文字都沒出現錯誤。
看圖片整體的效果也是各有千秋, FLUX 不僅把文字寫對了,甚至連 Prada 那個倒三角 LOGO 都給畫了出來,而 Midjourney 的看起來則更時尚點兒。
提示詞:一個大的白色 “ Prada ” 手提包,小人物用冰塊搭建而成,被冰雪包圍,風格像時尚廣告,靈感來源于 prouce 雜志廣告、高分辨率攝影、廣告靈感的印刷設計風格
FLUX ( 左 ), Midjourney ( 右 )
接下來再上點難度,讓它們給短袖設計一個復古的圖片,而且還要加上兩個英文單詞。
這次它倆也都沒出啥大錯,但要論整體效果的話,世超個人覺得,還是 Midjourney 的更好一些。
提示詞:復古風格的 T 恤設計以一輛帶有方格旗的老式飆車為特色,并附有文字 “Lagertha” 和 “Semper Fi” ,以單色背景為背景。舉著旗幟的拉格薩身上有紋身。這幅藝術作品的風格捕捉到了她的動作姿勢,展示了車速和維京力量的力量。這是一個高對比度的插圖,突出了他們的運動裝和大膽的文字排版。
FLUX ( 左 ), Midjourney ( 右 )
看一個圖像模型能力,經典問題 “ 畫手 ” 肯定也繞不過。
Midjourney 這邊呢,依舊是有點不太穩定,生成的手時好時壞,像右邊這張圖,比個耶就莫名多出一個小指。
兩張均由 Midjourney 生成
而 FLUX 的效果,說實話還是挺讓人意外的,無論是剪貼畫風格,還是寫實風格,手部幾乎都看不出啥破綻來。
兩張均由 FLUX 生成
到這為止, FLUX 在一些圖片細節和小問題上,處理得還不錯。
當然了,在一定程度上,圖像 AI 也是個幫大伙實現想象力的工具,于是世超又丟了一些腦洞大的提示詞。
提示詞:一個穿著紅色連衣裙的年輕女孩,坐在一條長著巨大牙齒和眼睛的巨龍旁邊。她正面對它,好像他們是朋友或好警察。這個場景發生在山里的雪石里。以詹姆斯 · 卡梅隆的風格拍攝的《 狼的秘密生活 》, 70 年代的電影。
FLUX ( 左 ), Midjourney ( 右 )
emmm 。。。誰好誰壞就不用世超幫大伙下結論了吧, FLUX 基本上就是一眼 AI 的程度,反觀 Midjourney ,到真有點真人特效的味兒。
之后,世超又給 FLUX 為了個簡單點的提示詞: “ 現代文明的毀滅 ” ,看看它自個兒的想象力咋樣。
結果這次,它和 Midjourney 都栽跟頭了。
單看圖片效果, Midjourney 會更勝一籌,確實是把史詩感拿捏了,但這建筑前看后看,跟現代文明也半毛錢關系啊。。。
FLUX ( 左 ), Midjourney ( 右 )
有趣的是, FLUX 在生成夸張漫畫版本的名人肖像時,還挺在行。像是馬斯克和喬布斯,它在生成時,五官特色抓得都挺精準。
兩張均由 FLUX 生成
整體體驗下來,世超覺得 FLUX 的真實水平,還談不上一騎絕塵,但也差不到哪里去。
畢竟還是 Stable Diffusion 的原班人馬搞出來的,差不多就和 Midjourney 一個梯隊。
而且新公司黑森林在月初推出 FLUX 的時候,還官宣了自家的融資進度,到現在已經完成了3100 萬美元的融資。
更重要的是,雖然黑森林的各位都離開 Stability AI 了,但還是繼承了它開源的傳統美德,中杯、小杯的 FLUX 都開源。
這還沒完,推出圖片 AI ,似乎也只是他們趕進度的一環。官網上,他們也挑明了下一步的計劃,要做視頻 AI 里的 SOTA 。
但話說回來,圖片 AI 的商業化都是快被討論爛的一個話題了。
黑森林的前東家 Stability AI 就是因為商業化的問題,爛攤子一堆。而它自個兒,現在搞得開源,還有付費模型那套,和之前的 Stability AI 基本沒啥差別。
后續在商業化上,會不會有啥其他新動作,咱只能再觀望觀望,畢竟也才剛出來。
可別照搬 Stability AI 的老路,又重走一遍。。。
本文鏈接:http://www.tebozhan.com/showinfo-25-107445-0.html剛出來就被冠上最強稱號 但這圖像AI好像也就那樣
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com