7 月 4 日消息,騰訊混元文生圖大模型(混元 DiT)今日宣布開源小顯存版本,僅需 6G 顯存即可運行,對使用個人電腦本地部署的開發者比較友好。
此外,騰訊宣布混元文生圖打標模型“混元 Captioner”正式對外開源。該模型支持中英文雙語,針對文生圖場景進行專門優化,可幫助開發者快速制作文生圖數據集。
騰訊混元 DiT 模型升級騰訊混元 DiT 模型宣布了三大更新:推出小顯存版本與 Kohya 訓練界面,并升級至 1.2 版本,進一步降低使用門檻的同時提升圖片質量。
基于 DiT 架構的文生圖模型生成圖片質感更佳,但對顯存的要求卻非常高,混元 DiT 因此推出小顯存版本,最低 6G 顯存即可運行優化推理框架,對使用個人電腦本地部署的開發者比較友好。
經過與 Hugging Face 合作,小顯存版本、LoRA 與 ControlNet 插件,都已經適配到 Diffusers 庫中。開發者無需下載原始代碼,僅用三行代碼僅可調用,簡化了使用成本。
同時,混元 DiT 宣布接入 Kohya,讓開發者可以低門檻地訓練專屬 LoRA 模型。
Kohya 是一個開源的、輕量化模型微調訓練服務,提供了圖形化的用戶界面,被廣泛用于擴散模型類文生圖模型的訓練。
用戶可以通過圖形化界面,完成模型的全參精調及 LoRA 訓練,無需涉及到代碼層面的細節。訓練好的模型符合 Kohya 生態架構,可以低成本與 WebUI 等推理界面結合,實現一整套“訓練-生圖”工作流。
混元 Captioner在提升模型易用性的同時,騰訊混元團隊最新開源了打標模型 —— 混元 Captioner。
借助打標模型,開發者可以快速生成數據集。具體來說,文生圖開發者將原始圖片集導入混元 Captioner,后者將生成標注;也可以導入圖片與原始描述,利用混元 Captioner 過濾其中的無關信息,并完善和優化圖片描述,以提高數據質量。
目前,業界對于圖片描述文本的生成,主要使用通用多模態 Captioner 模型,存在描述過于簡單或繁瑣(與畫面描述的無關信息過多)、缺少背景知識導致無法識別知名人物和地標等問題,并且許多模型并非中文原生,中文描述不夠精準。
Captioner 模型號稱針對文生圖場景專門進行優化:
構建了結構化的圖片描述體系;
在模型層面,通過注入人工標注、模型輸出、公開數據等多種來源提升 Caption 描述的完整性;
注入知名文學作品形象、地標、食物、動物、中國元素與知識等背景知識。
附騰訊混元開源文生圖大模型相關鏈接:
官網:https://dit.hunyuan.tencent.com/
代碼:https://github.com/Tencent/HunyuanDiT
模型:https://huggingface.co/Tencent-Hunyuan/HunyuanDiT
論文:https://tencent.github.io/HunyuanDiT/asset/Hunyuan_DiT_Tech_Report_05140553.pdf
本文鏈接:http://www.tebozhan.com/showinfo-45-4968-0.html騰訊混元 DiT 文生圖大模型開源 6G 小顯存版本,一同開源打標模型
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com