10 月 29 日消息,北京智源人工智能研究院(BAAI)推出了新的擴散模型架構 OmniGen,這是一種用于統一圖像生成的多模態模型。
官方表示,OmniGen 具有以下特點:
統一性:OmniGen 天然地支持各種圖像生成任務,例如文生圖、圖像編輯、主題驅動生成和視覺條件生成等。此外,OmniGen 可以處理經典的計算機視覺任務,將其轉換為圖像生成任務。
簡單性:OmniGen 的架構高度簡化。此外,與現有模型相比,它更加用戶友好,可以通過指令完成復雜的任務,而不需要冗長的處理步驟和額外的模塊 (如 ControlNet 或 IP-Adapter),從而大大簡化了工作流程。
知識遷移:受益于統一格式的學習,OmniGen 有效地跨不同任務遷移知識,應對未見過的任務和領域,并展示新穎的功能。我們還探討了模型的推理能力和思維鏈機制的在圖像生成領域的潛在應用。
附相關鏈接如下:
論文:https://arxiv.org/pdf/2409.11340
代碼:https://github.com/VectorSpaceLab/OmniGen
演示:https://huggingface.co/spaces/Shitao/OmniGen
本文鏈接:http://www.tebozhan.com/showinfo-45-9348-0.html智源推出全能視覺生成模型 OmniGen:支持文生圖、圖像編輯等
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com