當前位置：首頁 > 科技 > 知識百科

港科大&amp;MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

來源：責編：時間：2023-08-07 16:30:27 276觀看

導讀許多內容制作項目需要將簡單的草圖轉換為逼真的圖片，這就涉及圖像到圖像的轉換（image-to-image translation），它使用深度生成模型學習給定輸入的自然圖片的條件分布。圖像到圖像

港科大&MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

許多內容制作項目需要將簡單的草圖轉換為逼真的圖片，這就涉及圖像到圖像的轉換（image-to-image translation），它使用深度生成模型學習給定輸入的自然圖片的條件分布。

圖像到圖像轉換的基本概念是利用預訓練的神經網絡來捕捉自然圖片流形（manifold）。圖像轉換類似于遍歷流形并定位可行的輸入語義點。系統使用許多圖片對合成網絡進行預訓練，以從其潛在空間的任何采樣中提供可靠的輸出。通過預訓練的合成網絡，下游訓練將用戶輸入調整為模型的潛在表征。

多年來，我們已經看到許多特定于任務的方法達到了 SOTA 水平，但目前的解決方案還是難以創建用于實際使用的高保真圖片。

港科大&MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

在最近的一篇論文中，香港科技大學和微軟亞洲研究院的研究者認為，對于圖像到圖像的轉換，預訓練才是 All you need。以往方法需要專門的架構設計，并從頭開始訓練單個轉換模型，因而難以高質量地生成復雜場景，尤其是在配對訓練數據不充足的情況下。

因此，研究者將每個圖像到圖像的轉換問題視為下游任務，并引入了一個簡單通用框架，該框架采用預訓練的擴散模型來適應各種圖像到圖像的轉換。他們將提出的預訓練圖像到圖像轉換模型稱為 PITI（pretraining-based image-to-image translation）。此外，研究者還提出用對抗訓練來增強擴散模型訓練中的紋理合成，并與歸一化指導采樣結合以提升生成質量。

最后，研究者在 ADE20K、COCO-Stuff 和 DIODE 等具有挑戰性的基準上對各種任務進行了廣泛的實證比較，表明 PITI 合成的圖像顯示出了前所未有的真實感和忠實度。

港科大&MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

論文鏈接：https://arxiv.org/pdf/2205.12952.pdf項目主頁：https://tengfei-wang.github.io/PITI/index.htmlGAN 已死，擴散模型永存

作者沒有使用在特定領域表現最佳的 GAN，而是使用了擴散模型，合成了廣泛多樣的圖片。其次，它應該從兩種類型的潛在代碼中生成圖片：一種描述視覺語義，另一種針對圖像波動進行調整。語義、低維潛在對于下游任務至關重要。否則，就不可能將模態輸入轉換為復雜的潛在空間。鑒于此，他們使用 GLIDE 作為預訓練的生成先驗，這是一種可以生成不同圖片的數據驅動模型。由于 GLIDE 使用了潛在的文本，它允許語義潛在空間。

擴散和基于分數的方法表現出跨基準的生成質量。在類條件 ImageNet 上，這些模型在視覺質量和采樣多樣性方面與基于 GAN 的方法相媲美。最近，用大規模文本圖像配對訓練的擴散模型顯示出驚人的能力。訓練有素的擴散模型可以為合成提供通用的生成先驗。

港科大&MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

框架

作者可以使用前置（pretext）任務對大量數據進行預訓練，并開發一個非常有意義的潛在空間來預測圖片統計。

對于下游任務，他們有條件地微調語義空間以映射特定于任務的環境。該機器根據預先訓練的信息創建可信的視覺效果。

作者建議使用語義輸入對擴散模型進行預訓練。他們使用文本條件、圖像訓練的 GLIDE 模型。Transformer 網絡對文本輸入進行編碼，并為擴散模型輸出 token。按照計劃，文本嵌入空間是有意義的。

港科大&MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

上圖是作者的作品。與從頭開始的技術相比，預訓練模型提高了圖片質量和多樣性。由于 COCO 數據集具有眾多類別和組合，因此基本方法無法通過引人注目的架構提供美觀的結果。他們的方法可以為困難的場景創建具有精確語義的豐富細節。圖片展示了他們方法的多功能性。

實驗及影響

表 1 顯示，該研究所提方法性能始終優于其他模型。與較為領先的 OASIS 相比，在掩碼到圖像合成方面，PITI 在 FID 方面獲得了顯著的改進。此外，該方法在草圖到圖像和幾何到圖像合成任務中也顯示出良好的性能。

港科大&MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

圖 3 展示了該研究在不同任務上的可視化結果。實驗可得，與從頭開始訓練的方法相比，預訓練模型顯著提高了生成圖像的質量和多樣性。該研究所用方法可以產生生動的細節和正確的語義，即使是具有挑戰性的生成任務。

港科大&MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

該研究還在 Amazon Mechanical Turk 上的 COCO-Stuff 上進行了一項關于掩碼到圖像合成的用戶研究，獲得了 20 名參與者的 3000 票。參與者一次會得到兩張圖片，并被要求選擇一張更真實的進行投票。如表 2 所示，所建議的方法在很大程度上優于從零開始的模型和其他基線。

港科大&MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

條件圖像合成可創建符合條件的高質量圖片。計算機視覺和圖形學領域使用它來創建和操作信息。大規模預訓練改進了圖片分類、對象識別和語義分割。未知的是大規模預訓練是否有利于一般生成任務。

能源使用和碳排放是圖片預訓練的關鍵問題。預訓練是耗能的，但只需要一次。條件微調讓下游任務可以使用相同的預訓練模型。預訓練允許用更少的訓練數據訓練生成模型，當數據由于隱私問題或昂貴的注釋成本而受到限制時，可以提升圖像合成效果。

本文鏈接：http://www.tebozhan.com/showinfo-119-2403-0.html港科大&amp;MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：用AI尋找大屠殺后失散的親人！谷歌工程師研發人臉識別程序，可識別超70萬張二戰時期老照片

下一篇：云安全日報220705:紅帽PHP解釋器發現執行任意代碼漏洞,需要盡快升級

標簽：

熱門焦點

6月iOS設備好評榜：第一蟬聯榜首近一年

作為安兔兔各種榜單里變化最小的那個，2023年6月的iOS好評榜和上個月相比沒有任何排名上的變化，僅僅是部分設備好評率的下降，長年累月的用戶評價和逐漸退出市場的老款機器讓這
女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起月薪過萬電費也交不起

近日，江蘇蘇州一女孩租房當天充值了100元電費，開著空調不到2小時發現電費已用完。對于為什么這個快，房東表示，電表壞了這種情況很多，之前也遇到過，給租客換
K6：面向開發人員的現代負載測試工具

K6 是一個開源負載測試工具，可以輕松編寫、運行和分析性能測試。它建立在 Go 和 JavaScript 之上，它被設計為功能強大、可擴展且易于使用。k6 可用于測試各種應用程序，包括 Web
如何正確使用:Has和:Nth-Last-Child

我們可以用CSS檢查，以了解一組元素的數量是否小于或等于一個數字。例如，一個擁有三個或更多子項的grid。你可能會想，為什么需要這樣做呢？在某些情況下，一個組件或一個布局可能會
學習JavaScript的10個理由...

作者 | Simplilearn編譯 | 王瑞平當你決心學習一門語言的時候，很難選擇到底應該學習哪一門，常用的語言有Python、Java、JavaScript、C/CPP、PHP、Swift、C#、Ruby、Objective-
馮提莫簽約抖音公會前“斗魚一姐”消失在直播間

來源：直播觀察提起“馮提莫”這個名字，很多網友或許聽過，但應該不記得她是哪位主播了。其實，作為曾經的“斗魚一姐”，馮提莫在游戲直播的年代影響力不輸于現
華為HarmonyOS 4升級計劃公布：首批34款機型今日開啟公測

8月4日消息，今天下午華為正式發布了HarmonyOS 4系統，在更流暢的前提下，還帶來了不少新功能，UI設計也有變化，會讓手機煥然一新。華為宣布，首批機型將會在
iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強5G Soc

去年底，iQOO推出了“電競旗艦”iQOO 11系列，作為一款性能強機，iQOO 11不僅全球首發2K 144Hz E6全感屏，搭載了第二代驍龍8平臺及144Hz電競屏，同時在快充
聯想YOGA 16s 2022筆記本將要推出，屏幕支持觸控功能

聯想此前宣布，將于11月2日19:30召開聯想秋季輕薄新品發布會，推出聯想 YOGA 16s 2022 筆記本等新品。官方稱，YOGA 16s 2022 筆記本將搭載 16 英寸屏幕，并且是一

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

港科大&amp;MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

6月iOS設備好評榜：第一蟬聯榜首近一年

女孩租房開2小時空調用完100元電費引熱議：5級能耗惹不起月薪過萬電費也交不起

K6：面向開發人員的現代負載測試工具

如何正確使用:Has和:Nth-Last-Child

學習JavaScript的10個理由...

馮提莫簽約抖音公會前“斗魚一姐”消失在直播間

華為HarmonyOS 4升級計劃公布：首批34款機型今日開啟公測

iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強5G Soc

聯想YOGA 16s 2022筆記本將要推出，屏幕支持觸控功能

最新推薦

猜你喜歡

熱門推薦

相關資訊

港科大&amp;amp;MSRA研究：關于圖像到圖像轉換，Finetuning is all you need

最新推薦

猜你喜歡

熱門推薦

相關資訊

港科大&MSRA研究：關于圖像到圖像轉換，Finetuning is all you need