近日,大模型領域的獨角獸企業智譜科技震撼發布其最新研發成果——CogView4,這是一款開創性的開源文生圖模型,特別之處在于它首次實現了對漢字生成的支持。
CogView4模型內含60億參數,專為中文環境設計,不僅支持原生中文輸入,還能將中文文本直接轉化為圖像。其最顯著的技術更新在于,該模型能夠無縫處理中英文雙語提示詞,將字符巧妙融入圖像之中,且對長達上百字的復雜提示詞也能精準理解。
與上一代產品CogView3-Plus-3B相比,CogView4在提示詞處理上實現了質的飛躍,長度上限從224 Tokens大幅提升至1024 Tokens,極大擴展了用戶的創意空間。
在權威的文生圖基準測試DPG-Bench中,CogView4憑借卓越的表現摘得桂冠,證明了其在復雜語義對齊和指令跟隨能力上的領先地位。目前,CogView4的6B-0304版本已面向公眾開源,并將于3月13日正式登陸智譜清言平臺(chatglm.cn)。
CogView4不僅是首個支持漢字生成的開源模型,還是首個遵循Apache 2.0協議的圖像生成模型。智譜科技承諾,未來將陸續推出ControlNet、ComfyUI等生態支持,并即將發布一套完整的微調工具包,以滿足用戶多樣化的需求。
CogView4在實際應用中展現出了驚人的創造力。無論是中英文海報的原圖直出,還是根據古詩詞意境繪制的精美插圖,CogView4都能精準理解用戶意圖,將文字轉化為生動形象的畫面。該模型還支持超長提示詞生成四格漫畫或精細畫面,為用戶提供了前所未有的創作體驗。
例如,用戶只需輸入一句簡短的詩句“野徑云俱黑,江船火獨明”,CogView4就能迅速捕捉到詩句中的意象,將黑云、船、燈光、野徑等元素巧妙融入畫面之中,營造出一種靜謐而神秘的氛圍。
在技術層面,CogView4的突破在于其雙語提示詞輸入能力和任意分辨率圖像生成能力。通過將文本編碼器升級為具備雙語能力的GLM-4 encoder,并結合中英雙語圖文對進行訓練,CogView4成功實現了雙語提示詞輸入。同時,該模型采用二維旋轉位置編碼(2D RoPE)和Flow-matching方案進行擴散生成建模,支持任意長度提示詞和任意分辨率圖像的生成。
智譜科技的這一創新成果,無疑為文生圖領域注入了新的活力。隨著CogView4的開源和后續生態支持的完善,我們有理由相信,這一技術將廣泛應用于各個領域,推動AI普惠的實現。
本文鏈接:http://www.tebozhan.com/showinfo-45-11346-0.html智譜大模型新突破!60億參數CogView4文生圖,領跑SOTA開啟開源年
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com