當前位置：首頁 > 元宇宙 > AI

騰訊混元 DiT 文生圖大模型開源 6G 小顯存版本，一同開源打標模型

來源：責編：時間：2024-07-06 07:40:53 123觀看

導讀 7 月 4 日消息，騰訊混元文生圖大模型（混元 DiT）今日宣布開源小顯存版本，僅需 6G 顯存即可運行，對使用個人電腦本地部署的開發者比較友好。此外，騰訊宣布混元文生圖打標模型“混元 Captioner”正式對外開源。該模型

7 月 4 日消息，騰訊混元文生圖大模型（混元 DiT）今日宣布開源小顯存版本，僅需 6G 顯存即可運行，對使用個人電腦本地部署的開發者比較友好。

此外，騰訊宣布混元文生圖打標模型“混元 Captioner”正式對外開源。該模型支持中英文雙語，針對文生圖場景進行專門優化，可幫助開發者快速制作文生圖數據集。

騰訊混元 DiT 模型升級

騰訊混元 DiT 模型宣布了三大更新：推出小顯存版本與 Kohya 訓練界面，并升級至 1.2 版本，進一步降低使用門檻的同時提升圖片質量。

基于 DiT 架構的文生圖模型生成圖片質感更佳，但對顯存的要求卻非常高，混元 DiT 因此推出小顯存版本，最低 6G 顯存即可運行優化推理框架，對使用個人電腦本地部署的開發者比較友好。

經過與 Hugging Face 合作，小顯存版本、LoRA 與 ControlNet 插件，都已經適配到 Diffusers 庫中。開發者無需下載原始代碼，僅用三行代碼僅可調用，簡化了使用成本。

同時，混元 DiT 宣布接入 Kohya，讓開發者可以低門檻地訓練專屬 LoRA 模型。

Kohya 是一個開源的、輕量化模型微調訓練服務，提供了圖形化的用戶界面，被廣泛用于擴散模型類文生圖模型的訓練。

用戶可以通過圖形化界面，完成模型的全參精調及 LoRA 訓練，無需涉及到代碼層面的細節。訓練好的模型符合 Kohya 生態架構，可以低成本與 WebUI 等推理界面結合，實現一整套“訓練-生圖”工作流。

混元 Captioner

在提升模型易用性的同時，騰訊混元團隊最新開源了打標模型 —— 混元 Captioner。

借助打標模型，開發者可以快速生成數據集。具體來說，文生圖開發者將原始圖片集導入混元 Captioner，后者將生成標注；也可以導入圖片與原始描述，利用混元 Captioner 過濾其中的無關信息，并完善和優化圖片描述，以提高數據質量。

目前，業界對于圖片描述文本的生成，主要使用通用多模態 Captioner 模型，存在描述過于簡單或繁瑣（與畫面描述的無關信息過多）、缺少背景知識導致無法識別知名人物和地標等問題，并且許多模型并非中文原生，中文描述不夠精準。

▲混元 Captioner 對圖片描述進行結構化與準確度提升混元

Captioner 模型號稱針對文生圖場景專門進行優化：

構建了結構化的圖片描述體系；

在模型層面，通過注入人工標注、模型輸出、公開數據等多種來源提升 Caption 描述的完整性；

注入知名文學作品形象、地標、食物、動物、中國元素與知識等背景知識。

▲Capiton 模型的背景知識更好，能夠識別宮保雞丁

▲Captioner 模型結構化圖片描述體系

附騰訊混元開源文生圖大模型相關鏈接：

官網：https://dit.hunyuan.tencent.com/

代碼：https://github.com/Tencent/HunyuanDiT

模型：https://huggingface.co/Tencent-Hunyuan/HunyuanDiT

論文：https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf

本文鏈接：http://www.tebozhan.com/showinfo-45-4968-0.html騰訊混元 DiT 文生圖大模型開源 6G 小顯存版本，一同開源打標模型

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：商湯科技 CEO 徐立：AI 行業很熱但未到“超級時刻”，需要應用來支撐

下一篇：一張照片創造 1 分鐘人物視頻，商湯發布首個“可控”人物視頻生成大模型 Vimi

標簽：

熱門焦點

元宇宙里賣酸奶，好炸裂的操作！

作者 | 李東陽來源 | 首席營銷官有沒有發現，當下的熱搜出現一個有意思的現象，那就是“情懷”不知不覺成為了主流，爺青回話題討論性非常高。前有名偵探柯南和優衣庫
25萬虛擬er在“元宇宙”追星

“默嘰默嘰，我是默默醬，我是在真元宇宙也有頭有臉的人。”12月11日晚20：00，虛擬偶像@默默醬的首場個人元宇宙演唱會《以夢為馬，抵達繁星》在大有空間APP
在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

撰文/ 蔥鮪魚本屆世界杯可能不是最精彩的一屆，卻絕對是看點十足的一屆：后疫情時代的首屆世界杯、耗資2200億美元打造的“史上最貴”世界杯、足壇黃金
超跑與NFT的首次結合，蘭博基尼能否破局？

蘭博基尼公司近日稱即將推出它的首款NFT，并且將加速進軍區塊鏈領域。這家聞名遐邇的意大利汽車廠商野心勃勃地將目光投向混合動力和電動跑車，并宣布將拍賣與瑞士
冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

“兩日上漲千倍”并不存在，且冰墩墩NFT的市場熱度遠不及社交媒體所稱的那樣高。2月11日，獲得國際奧委會授權的2022冬奧會吉祥物冰墩墩相關NFT產品在nWayPlay上線
元宇宙“概念股”集體崩塌，背后究竟發生了什么？

近期，Roblox和Meta公布了第四季度的財務報告，在財報發布一日后，股價大跌。作為市值一度超過1萬億美元的世界第六大公司Meta，股價大跌4%，市值降至5650億美元，甚至跌出
借VR產業東風，江西搶灘布局“元宇宙”

自2016年起就在VR上傾注了大量精力的江西省，迅速搭上了“元宇宙”。VR、AR等技術是通往元宇宙的關鍵接口，使人們可以在數字空間和物理空間自由穿梭。自2016年起
獨立故事片“Calladita”將使用 NFT 籌集資金

導演 Miguel Faus 正在轉向加密來資助他的處女作，由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”（導演 Miguel Faus）。圖片：米格爾·福斯在過去的一年
冬奧會數字收藏品升溫，市場再現“一墩難求”

根據公開信息顯示，國際奧委會官方授權的冰墩墩數字盲盒于北京時間2月12日凌晨在nWayPlay平臺發售，總數為500個，每個99美元，每人限購5個。此外，不同的奧運徽章數字藏

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

騰訊混元 DiT 文生圖大模型開源 6G 小顯存版本，一同開源打標模型

元宇宙里賣酸奶，好炸裂的操作！

25萬虛擬er在“元宇宙”追星

在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

超跑與NFT的首次結合，蘭博基尼能否破局？

冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

元宇宙“概念股”集體崩塌，背后究竟發生了什么？

借VR產業東風，江西搶灘布局“元宇宙”

獨立故事片“Calladita”將使用 NFT 籌集資金

冬奧會數字收藏品升溫，市場再現“一墩難求”

最新推薦

猜你喜歡

熱門推薦

相關資訊