假期歸來，安利一款玩轉自拍的黑科技給你：基於GANs的新型自拍卡通化方法

安利黑科技創業投資 · 發表 2019-05-05 10:06:15

摘要： From:Arxiv 編譯:T.R 剛剛假期歸來的你，一定在手機裡存了美美的自拍。如果可以把這些自拍變成卡通效果的美照，在朋友圈裡一定會獨樹一幟。這樣的畫風比起自拍多了些藝術的氣息。但是要實現高質量的卡通藝術p圖沒有一定的美術基礎很難做出令人滿意的效果。...

From:Arxiv 編譯:T.R

剛剛假期歸來的你，一定在手機裡存了美美的自拍。如果可以把這些自拍變成卡通效果的美照，在朋友圈裡一定會獨樹一幟。

這樣的畫風比起自拍多了些藝術的氣息。但是要實現高質量的卡通藝術p圖沒有一定的美術基礎很難做出令人滿意的效果。

那近日，

來自京東AI研究院的研究人員們提出了一種 基於GANs的新型自拍卡通化方法 ，在保證五官和麵部表情細節的前提下，通過三種不同的損失函式將自拍像轉換為高質量的卡通化影象。

相比於傳統方法在細節和保留和區域性紋理的抽象上都有了大幅度的提升。

卡通化的自拍在日常生活中一直有著很大的需求。人們可以將卡通化的自拍作為社交網路的頭像，在彰顯個性的同時也在一定程度上保護隱私。此外在線上遊戲和藝術海報、插畫設計中也十分重要。但高質量的卡通化自拍需要畫師花費大量的時間，如何高效的生成高質量的自拍影象成為擺在研究人員面前需要解決的問題。

對於這個問題，目前的方法主要分為兩類。傳統方法主要基於草圖抽取的方法，並基於一定的顏色和形狀後處理來生成卡通化自拍，這種方法在很多拍照app中廣泛使用。谷歌應用商店裡就有許許多多類似的應用。

但這些方法常常需要人類工程師精心設計演算法，對於不同的風格都需要進行特殊的演算法設計和調整，同時在細節方面與插畫師還有很大距離。這些方法一般通過人臉識別分割出五官位置，隨後利用卡通的渲染方法或特殊濾波器來對影象處理得到卡通化影象。雖然這些方法可以在手機上實現實時處理，但他們對於面部的細節保持和影象抽象還不完善。

近年來深度學習的發展給出了新的解決方案。

神經風格遷移(Neural Style Transfer,NST)可以將風格影象的風格遷移到內容影象中去。

但通用的NST在應用於卡通化時缺乏針對性的風格化能力。另一種基於生成對抗網路的方法通過對抗的方法來實現影象域遷移，研究人員們相繼提出了pix2pix、Bicycle等方法將影象從一個域對映到另一個域中。然而其最大的缺點在於需要大量的配對資料來實現訓練，這對於很多影象遷移任務來說很不現實。

為了解決這一問題，研究人員們又開發出了CycleGAN和UNIT等非監督的域遷移方法來使用非配對資料訓練模型。對於影象卡通化，CartoonGAN、DAGAN等模型已經進行了很多有益的探索，但在捕捉影象細節、特別是對於自拍影象生成高質量結果方面還存在很多問題。如何儘可能的保留面部特徵細節同時保持藝術作品的風格化是研究人員們需要解決的問題。

針對自拍卡通化任務，目前主要面臨三個挑戰：缺乏針對人類自拍像以及對應卡通像的 公開資料集 ；如何 保留卡通化風格 ，包括內容的抽象和紋理特徵的簡化；最後在生成卡通像時，如何保持 最主要的面部輪廓特徵 ，同時又要避免引入大量無用的細節問題？

Selfie Cartoonization GANs

為了解決這一問題，研究人員基於GAN的架構和迴圈注意力損失提出了針對自拍像卡通化的架構scGANs，充分利用了注意力對抗網路來強化面部特定區域同時忽視低層次的紋理細節。模型的架構如下圖所示：

架構圖中顯示了自拍到卡通的訓練過程，省略了卡通到自拍的過程。

生成器首先將自拍轉換為手繪卡通影象，最後另一個生成器又將生成的手繪卡通轉換會自拍照。對於卡通影象來說也基於同樣的過程來訓練模型。考慮到卡通影象的紋理特徵和資料集的大小，模型中使用了Unet的架構，可以更好的保證面部及五官的邊緣特徵。判別器則使用了基於影象片的方法，不僅需要判別卡通形式的對抗損失，在模型的另一方面訓練中還需要判斷真實影象的對抗損失。
除了對抗損失外研究人員在這一架構中加入了三項新的損失，分別是注意力迴圈損失、總變分損失和感知損失。
受到cycleGAN中迴圈連續損失的啟發，研究人員提出了注意力迴圈損失來引導生成更好的生成面部的主要細節。例如眼影、瞳孔、鼻翼、嘴角等。針對這些面部區域網路給予更多的注意。在這一工作中，研究人員利用人臉識別方法標記出了4個區域，分別是完整自拍、眼睛、鼻子和嘴。針對每個區域設定對應的權重來構造損失。

此外由於卡通影象具有高度簡化的特徵和均勻的顏色，需要在畫素級損失上進行引導。研究人員觀察到畫師的作品（左）僅僅在邊緣具有較大的梯度變化，而大多數區域中梯度變化較小。生成的影象則全域性都具有雜亂的梯度場。

從上面的梯度圖中可以看出，要生成高質量的卡通化自拍，還需要在保持主要邊緣梯度的情況下移除其他區域的提出。所以研究人員提出了總變分作為損失來最小化合成影象與手繪影象間的梯度差，這一方法可以很好的移除臉頰處的陰影，更精確的刻畫鼻子。
最後為了保留輸出影象中的空間結構和內容特徵，研究人員利用VGG中conv4_4層來計算生成影象與對應影象間的感知損失。最後的損失函式如下所示：

為了訓練模型，研究人員通過谷歌圖片搜尋利用關鍵詞搜尋了3524張肖像照，同時從線上繪畫商店中下載了手繪、水彩和動漫等不同風格共計4580張卡通影象。通過訓練後，下圖是與目前幾種基於深度學習方法的對比：

最後一列是本文提出的方法

可以看到這種方法在整體上優於目前的深度學習方法。NST雖然保留了面部細節但無法有效學習風格特徵，cartoonGAN生成的效果則無法保留原始影象中的內容資訊，特別是眼部特徵丟失嚴重。UNIT和cycleGAN的效果稍好，但是在臉頰、嘴和鼻子等位置還有很多令人不滿意的地方。下表是本文方法的感知評斷得分表，明顯好於其他幾種方法：