快科技8月5日消息,今天凌晨,阿里通義千問宣布開源Qwen-Image,一個20B的MMDiT模型。
這是通義千問系列中首個圖像生成基礎模型,其在復雜文本渲染和精確圖像編輯方面取得顯著進展。
據了解,該模型專注于提升AI在兩大核心場景的能力:復雜的文本渲染與精準的圖像編輯。
功能亮點:
強大的文字渲染能力(本次開源)
效果領先:在多個文本測評榜單中,文字渲染均獲得SOTA。
原生渲染:文字是圖像生成時直出的,而非后期添加,效果更真實。
功能全面:支持中英雙語,多變字體,超長段落,超小文字,并可實現復雜的多位置圖文布局。
基礎扎實:除了文字,模型在人物情緒、細節刻畫和多樣的風格渲染上也同樣表現出色。
精準的圖像編輯能力(即將發布)
效果穩定:多個圖像編輯測評榜單SOTA。
鏈式編輯:在多輪連續修改后,仍能保持主體ID的一致性。
文字編輯:可以編輯圖像中的文字。
復雜編輯:可編輯人物姿勢,提取圖像紋理等。
通義千問在多個公開基準上對Qwen-Image進行全面評估,包括用于通用圖像生成的GenEval、DPG和OneIG-Bench,以及用于圖像編輯的GEdit、ImgEdit和GSO。
Qwen-Image在所有基準測試中均取得了先進的性能,展現出其在圖像生成與圖像編輯方面的強大能力。
此外,在用于文本渲染的LongText-Bench、ChineseWord和TextCraft上的結果表明,Qwen-Image在文本渲染方面表現尤為出色,特別是在中文文本渲染上,大幅領先現有的先進模型。
除了文本處理,Qwen-Image在通用圖像生成方面也表現出色,支持多種藝術風格。
在圖像編輯方面,Qwen-Image支持風格遷移、增刪改、細節增強、文字編輯,人物姿態調整等多種操作,讓普通用戶也能輕松實現專業級圖像編輯。
本文鏈接:http://www.tebozhan.com/showinfo-17-175593-0.html首個圖像生成基礎模型 阿里通義千問深夜開源Qwen-Image 支持中英雙語
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com