當前位置：首頁 > 元宇宙 > AI

字節跳動豆包文生圖技術報告發布：數據處理、預訓練、RLHF 全流程公開

來源：責編：時間：2025-03-14 12:40:41 34觀看

導讀 3 月 12 日消息，今天，豆包大模型團隊正式發布文生圖技術報告，首次公開 Seedream 2.0 圖像生成模型技術細節，覆蓋數據構建、預訓練框架、后訓練 RLHF 全流程，針對Seedream 2.0 原生中英雙語理解、文字渲染、高美感

3 月 12 日消息，今天，豆包大模型團隊正式發布文生圖技術報告，首次公開 Seedream 2.0 圖像生成模型技術細節，覆蓋數據構建、預訓練框架、后訓練 RLHF 全流程，針對Seedream 2.0 原生中英雙語理解、文字渲染、高美感、分辨率與畫幅變換等特性的實現，進行了具體介紹。

據介紹，豆包大模型團隊文生圖模型 Seedream 2.0于 2024 年 12 月初在豆包 App 和即夢上線，已服務上億 C 端用戶。

相比 Ideogram 2.0、Midjourney V6.1、Flux 1.1 Pro 等主流模型，該模型更好解決了文本渲染能力欠佳、對中國文化理解不足等諸多實際問題，支持原生中英雙語，美感、指令遵循等能力有整體提升。

團隊為了較全面客觀地評估模型，圍繞圖文匹配度、結構準確率、美感等基礎維度，嚴格構建了 Bench-240 評測基準。通過測試，團隊發現 Seedream 2.0面向英文提示詞，其生成內容的結構合理性、文本理解準確性高于主流模型。

中文綜合能力同樣突出，其生成與渲染文字可用率達 78%，完美響應率為 63%，高于業界目前其他模型。

以下將從數據預處理、預訓練、后訓練維度介紹模型技術細節：

1. 深度融合知識的數據預處理框架

生成式 AI 技術，正從規模至上的“暴力美學”，向滿足特定要求的“精準智能”轉變，與之同步，數據預處理也演變為復雜的系統工程。面對百億量級的中英多模態數據，Seedream 2.0 團隊構建了以“知識融合”為核心的預處理框架，從以下三個方面實現技術突破。

四維數據架構，實現質量與知識的動態平衡

傳統圖像生成模型訓練數據篩選常面臨“質量-規模”的兩難抉擇，數據量級是模型能力的基礎，但大規模數據構建，往往伴隨質量下滑，進而影響模型表現。為此，團隊創新設計了四維拓撲網絡，突破單一模態限制。

該架構包含四個數據層：

1）優質數據層：精選高分辨率、知識密度強的數據（如科學圖解、藝術創作），奠定質量基礎；

2）分布維持層：采用雙層級降采樣策略，從數據源維度對頭部平臺等比降維，從語義維度通過 10 萬級細粒度聚類維持多樣性；

3）知識注入層：構建 3 萬 + 名詞和 2000+ 動詞分類體系，結合百億級跨模態檢索，為數據注入文化特征；

4）定向增強層：建立“缺陷發現-數據補充-效果驗證”閉環，優化動作序列、反現實生成等場景。

這一架構有效平衡了數據質量與知識多樣性，為模型訓練提供堅實的數據支撐。

智能標注引擎：三級認知進化

傳統標注的 Caption 系統受單模態理解局限，對圖像內容描述不夠全面精準。團隊在其基礎上，實現了智能標注引擎的三級認知進化，提升模型理解、識別能力。首先，構建分層描述體系，通過短、長和特殊場景 Caption 結合，實現多維度、多層級精準圖片描述，既能捕捉圖像核心內容，又能提供豐富細節與藝術解釋。其次，建立文化專有名詞映射庫，實現跨語言對齊，將中英文生成質量差異壓縮至 2% 以內，提升模型在多語言環境下表現。最后，引入動態質檢機制，利用 LLM 進行預篩選，通過 Badcase 驅動 prompt 模板迭代，優化描述質量，確保數據質量與可靠性。

工程化重構：百億數據的流水線并行處理

工程化方面，傳統 ETL 流程存在算力錯配與迭代遲滯痛點。這不僅導致非核心任務占用大量高算力資源，擠占核心任務資源，也造成數據處理流程難以適應業務與數據變化，限制整體效能。團隊從兩方面重構工程系統。一方面通過異構調度，將水印檢測等非核心任務遷移至低算力集群，釋放高算力資源用于關鍵任務。另一方面，采用“分片-校驗-裝載”三級流水線并行處理方法，打包速度提升 8 倍。這些改進大幅提高數據處理效率與質量，為大規模數據管理利用奠定基礎。

2.預訓練聚焦雙語理解與文字渲染

在預訓練階段，團隊基于大量用戶調研與技術預判認為，多語言語義理解、雙語文字渲染和多分辨率場景適配等模塊的突破，對于圖像生成技術發展極為關鍵，可大幅提升模型適用性與用戶體驗，滿足不同語言文化背景的用戶需求，并拓展應用場景。因此，Seedream 2.0 采用了全新的預訓練架構設計，其整體框圖如下。

具體來看，Seedream 2.0 從三個方面實現了關鍵技術升級。

原生雙語對齊方案，打破語言視覺次元壁

面向雙語文生圖場景，傳統的 CLIP / T5 編碼器對中文語義和文化細節的捕捉能力有限，大語言模型雖具備多語言理解能力，但文本嵌入與圖像特征的空間分布差異卻導致擴散模型訓練難以收斂。為此，團隊提出基于 LLM 的雙語對齊方案。通過大規模文本-圖像對數據，微調 Decoder-Only 架構的 LLM，使文本 Embedding 與視覺特征形成空間映射對齊。同時，針對中文書法、方言俚語、專業術語等場景構建專用數據集，加強模型對文化符號的深度理解與感知。這種“預訓練對齊 + 領域增強”的雙軌策略，使模型能夠直接從大量中英文數據中習得“地道”的本土知識，進而，準確生成具有文化細微差別的中文或英文美學表達圖像，打破不同語言與視覺的次元壁。

讓模型既看懂文本，又關注字體字形

在過去，圖像生成模型的文本渲染常面臨兩難困境：依賴 ByT5 等字形模型易導致長文本布局混亂，而引入 OCR 圖像特征又需額外布局規劃模塊。為此，團隊構建了雙模態編碼融合系統 —— LLM 負責解析“文本要表達什么”，ByT5 專注刻畫“文字應該長什么樣”。具體來說，通過 MLP 投影層，將 ByT5 的字形特征對齊到 LLM 語義空間，二者拼接后輸入擴散模型。此種方法下，字體、顏色、大小、位置等渲染屬性不再依賴預設模板，而是通過 LLM 直接描述文本特征，進行端到端訓練。如此一來，模型既能從訓練數據中學習文本渲染特征，也可以基于編碼后的渲染特征，高效學習渲染文本的字形特征。

三重升級 DiT 架構，讓圖像生成縮放自如

多分辨率生成是圖像生成場景的常用需求，團隊在 SD3 的 MMDiT 架構基礎上，進行了兩重升級：其一，在訓練穩定性方面。團隊引入 QK-Norm 抑制注意力矩陣的數值波動，結合全分片數據并行策略（FSDP），使模型訓練收斂速度提升 300%。其二，團隊設計了 Scaling ROPE 技術方案。傳統二維旋轉位置編碼（RoPE）在分辨率變化時，可能會導致位置標識錯位。Seedream 2.0 通過動態縮放因子調整編碼，使圖像中心區域在不同寬高比下，保持空間一致性。這使得模型在推理過程中，能夠生成從未訓練過的圖像尺寸和各種分辨率。

3.后訓練 RLHF 突破能力瓶頸

Seedream 2.0 的后訓練過程包含四個階段：其中，CT 和 SFT 增強模型美學吸引力；人類反饋對齊（RLHF）利用自研獎勵模型與反饋算法，提升模型整體性能；Prompt Engineering 借助微調大語言模型優化美學與多樣性表現；超分模型提高圖像分辨率并修復細微結構錯誤。

其中最值得一提的是，團隊開發了基于人類反饋對齊的（RLHF）優化系統，提升了 Seedream 2.0 整體性能。其核心工作包含以下三個方面：

多維度偏好數據體系，提升模型偏好上限

團隊收集并整理了一個多功能的 Prompt 集合，專門用于獎勵模型（RM）訓練和反饋學習階段，并通過構建跨版本和跨模型標注管道，增強了 RM 的領域適應性，并擴展了模型偏好的上限。在標注階段，團隊構建了多維融合注釋。這一做法成功擴展了單一獎勵模型的多維度偏好表征邊界，促進模型在多個維度上實現帕累托最優。

三個不同獎勵模型，給予專項提升

Seedream 2.0 直接利用 CLIP 嵌入空間距離，作為基礎獎勵值。這省去了回歸頭等冗余參數結構以及不穩定訓練情況。同時，團隊精心制作并訓練了三個不同的獎勵模型：圖像文本對齊 RM、美學 RM 和文本渲染 RM。其中，文本渲染 RM 引入了觸發式激活機制，在檢測到“文本生成”類標簽時，模型將強化字符細節優化能力，提升漢字生成準確率。

反復學習，驅動模型進化

團隊通過直接最大化多個 RM 的獎勵，以改進擴散模型。通過調整學習率、選擇合適的去噪時間步長和實施權重指數滑動平均，實現了穩定的反饋學習訓練。在反饋學習階段，團隊同時微調 DiT 和文本編碼器。此種聯合訓練顯著增強了模型在圖像文本對齊和美學改進方面的能力。經過 RLHF 階段對擴散模型和獎勵模型的多輪迭代，團隊進一步提高了模型性能。獎勵曲線顯示，在整個對齊過程中，不同獎勵模型的表現分數值都呈現穩定且一致的上升趨勢。

附字節跳動技術展示頁：https://team.doubao.com/tech/seedream

技術報告：https://arxiv.org/pdf/2503.07703

本文鏈接：http://www.tebozhan.com/showinfo-45-11456-0.html字節跳動豆包文生圖技術報告發布：數據處理、預訓練、RLHF 全流程公開

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：全球首個“一腦多機”通用具身智能平臺“慧思開物”在京發布

下一篇：比亞迪3月17日發超級e平臺，兆瓦閃充能否終結電車續航焦慮？

標簽：

熱門焦點

元宇宙的文旅賽道，還能如何發力？

來源：X增強現實蘋果推出Vision Pro，為XR行業注入一劑強心針。而在蘋果開發者大會上迪士尼CEO鮑勃·艾格在宣布迪士尼與蘋果達成合作，其Disney+流媒體服務將于Vision Pro
雷克薩斯高管，“受賄”5000萬？

來源：毒舌科技作者：潘磊雷克薩斯的高管，好像出事了。五六家日本小媒體，突然曝出了一個與中國市場有關的大新聞——雷克薩斯中國區一個高管受賄10億日元（約合人民幣5000
關于ChatGPT的10點思考

作者：晏濤三壽近日ChatGPT又有大動作。5月19日，OpenAI在官網宣布正式發布App應用，并登錄蘋果應用商店。與網頁版的聊天機器人相比，iOS應用程序的發布有望讓更多人接觸到ChatGPT
元宇宙將會如何塑造未來的工作方式？

科幻小說家尼爾·斯蒂芬森 (Neal Stephenson) 在1992年就創造了“元宇宙”一詞，但事實上，在Facebook將其更名為Meta以反映其將這一科幻愿景變為現實的戰略重點之
2022年中國元宇宙系列報告：底層架構研究：虛擬引擎，擎動未來

“虛擬引擎是元宇宙平臺搭建的基本工具。在這樣的條件下，虛擬引擎擁有了廣闊的市場空間。也需要虛擬引擎擁有擁有強大的處理能力，能夠高效快速的實現大量交互場
《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

今日熱點：《刀劍神域：Ex-Chronicle Online Edition》VR展開幕；虛擬活動平臺EventX再獲800萬美元B輪融資；VR射擊游戲《Outlier》確認將于3月17日登陸Steam平臺等。
對諷刺無動于衷，Nori將碳市場放在區塊鏈上

當我們聊氣候問題的解決方案時，以太坊區塊鏈應該不是最首想到的，但這正是Nori所選擇的方案，它建立了一個引擎，鼓勵農民使用負碳耕作方法，將空氣中的碳抽出并放回地
盤點9個主流元宇宙平臺，你都知道哪些？

隨著NFT的持續升溫，它也加入了現在的元宇宙浪潮。本文介紹元宇宙的基本概念以及九個最流行的元宇宙NFT平臺，如Decentraland、sandbox等。用熟悉的語言學習以太
Staking 收益翻倍？

以太坊質押可能很快就會有兩倍的利潤。Coinbase 估計，在 1 月份以太坊網絡合并后，持有 ETH 的回報將翻倍。增長預期假設來自加密貨幣交易所 Coinbase 的估計是準

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

字節跳動豆包文生圖技術報告發布：數據處理、預訓練、RLHF 全流程公開

元宇宙的文旅賽道，還能如何發力？

雷克薩斯高管，“受賄”5000萬？

關于ChatGPT的10點思考

元宇宙將會如何塑造未來的工作方式？

2022年中國元宇宙系列報告：底層架構研究：虛擬引擎，擎動未來

《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

對諷刺無動于衷，Nori將碳市場放在區塊鏈上

盤點9個主流元宇宙平臺，你都知道哪些？

Staking 收益翻倍？

最新推薦

三院士三教授熱聊元宇宙&——AIGC，學術界怎么看？

時尚領域進軍元宇宙，2022年會帶來哪些顛覆性的全新體驗？

完美世界被元宇宙“拒之門外”

a16z：元宇宙辦公會取代實體辦公室嗎？

元宇宙收割了誰

在互聯網考古后，我被豆瓣上這座元宇宙古城征服了

猜你喜歡

熱門推薦

相關資訊