4 月 18 日消息,騰訊混元今日宣布開源定制化圖像生成插件InstantCharacter,并實現了對開源文生圖模型 Flux 的兼容。
騰訊官方介紹稱,通過這個插件,在大模型中,只需要一張圖加一句話,就可以讓任何角色以你想要的姿勢出現在任何地方。
輸入原始圖片
+ prompt :a rabbit is in the kitchen holding a spoon and drinking soup
就能得到下面的圖:
+prompt:a rabbit in the city,cyberpunk
就可以得到:
角色一致性是多輪文生圖場景中的一大難題。InstantCharacter 的優勢在于可以確保角色在不同場景中的一致性和真實性、畫質和精度高,同時具有靈活的文本編輯性,用戶可以根據需要靈活切換任意場景,讓人物生成任意動作。
其在角色一致性和圖像生成的精確度上號稱超過了此前業界的相關技術,能夠處理多種風格和復雜度的圖像。
通過這個插件,內容創作者可以讓生成的角色保持高度一致,能夠更高效地創作出符合其需求的視覺作品,可以用于連環畫、影片創作等場景。
實際的測評中,開源的 InstantCharacter 實現的效果媲美 GPT 4o 等模型。
從技術上看,現有基于學習的方法主要依賴于 U-Net 架構,但在泛化能力和圖像質量上存在局限性,而基于優化的方法則需要針對特定主體進行微調,這不可避免地降低了文本可控性。
為了解決這些挑戰,InstantCharacter 利用 DiT 模型構建了一個創新的框架。框架引入了一個可擴展的適配器(adapter),采用多個 transformer encoder,能夠有效處理開放域的角色特征,并與現代擴散變換器的潛在空間無縫交互。這種設計使得系統能夠靈活適應不同的角色特征。
同時,為了有效訓練框架,騰訊混元團隊還構建了一個包含千萬級樣本的大規模角色數據集。數據集被系統地組織為成對(多視角角色)和非成對(文本-圖像組合)子集。這種雙數據結構使得身份一致性和文本可編輯性能夠通過不同的學習路徑同時優化。
附項目相關鏈接:
項目官網:https://instantcharacter.github.io/
代碼:https://github.com/Tencent/InstantCharacter
Hugging Face Demo:https://huggingface.co/spaces/InstantX/InstantCharacter
論文:https://arxiv.org/abs/2504.12395
本文鏈接:http://www.tebozhan.com/showinfo-45-12417-0.html一張圖 + 一句話實現任意角色場景姿勢,騰訊混元宣布開源定制化圖像生成插件 InstantCharacter
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com