假期歸來,安利一款玩轉自拍的黑科技給你:基於GANs的新型自拍卡通化方法
From:Arxiv 編譯:T.R
剛剛假期歸來的你,一定在手機裡存了美美的自拍。如果可以把這些自拍變成卡通效果的美照,在朋友圈裡一定會獨樹一幟。
這樣的畫風比起自拍多了些藝術的氣息。但是要實現高質量的卡通藝術p圖沒有一定的美術基礎很難做出令人滿意的效果。
那近日,
來自京東AI研究院的研究人員們提出了一種 基於GANs的新型自拍卡通化方法 ,在保證五官和麵部表情細節的前提下,通過三種不同的損失函式將自拍像轉換為高質量的卡通化影象。相比於傳統方法在細節和保留和區域性紋理的抽象上都有了大幅度的提升。
卡通化的自拍在日常生活中一直有著很大的需求。人們可以將卡通化的自拍作為社交網路的頭像,在彰顯個性的同時也在一定程度上保護隱私。此外在線上遊戲和藝術海報、插畫設計中也十分重要。但高質量的卡通化自拍需要畫師花費大量的時間,如何高效的生成高質量的自拍影象成為擺在研究人員面前需要解決的問題。
對於這個問題,目前的方法主要分為兩類。傳統方法主要基於草圖抽取的方法,並基於一定的顏色和形狀後處理來生成卡通化自拍,這種方法在很多拍照app中廣泛使用。谷歌應用商店裡就有許許多多類似的應用。
但這些方法常常需要人類工程師精心設計演算法,對於不同的風格都需要進行特殊的演算法設計和調整,同時在細節方面與插畫師還有很大距離。這些方法一般通過人臉識別分割出五官位置,隨後利用卡通的渲染方法或特殊濾波器來對影象處理得到卡通化影象。雖然這些方法可以在手機上實現實時處理,但他們對於面部的細節保持和影象抽象還不完善。
近年來深度學習的發展給出了新的解決方案。
神經風格遷移(Neural Style Transfer,NST)可以將風格影象的風格遷移到內容影象中去。但通用的NST在應用於卡通化時缺乏針對性的風格化能力。另一種基於生成對抗網路的方法通過對抗的方法來實現影象域遷移,研究人員們相繼提出了pix2pix、Bicycle等方法將影象從一個域對映到另一個域中。然而其最大的缺點在於需要大量的配對資料來實現訓練,這對於很多影象遷移任務來說很不現實。
為了解決這一問題,研究人員們又開發出了CycleGAN和UNIT等非監督的域遷移方法來使用非配對資料訓練模型。對於影象卡通化,CartoonGAN、DAGAN等模型已經進行了很多有益的探索,但在捕捉影象細節、特別是對於自拍影象生成高質量結果方面還存在很多問題。 如何儘可能的保留面部特徵細節同時保持藝術作品的風格化是研究人員們需要解決的問題。
針對自拍卡通化任務,目前主要面臨三個挑戰:缺乏針對人類自拍像以及對應卡通像的 公開資料集 ;如何 保留卡通化風格 ,包括內容的抽象和紋理特徵的簡化;最後在生成卡通像時,如何保持 最主要的面部輪廓特徵 ,同時又要避免引入大量無用的細節問題?
Selfie Cartoonization GANs
為了解決這一問題, 研究人員基於GAN的架構和迴圈注意力損失提出了針對自拍像卡通化的架構scGANs, 充分利用了注意力對抗網路來強化面部特定區域同時忽視低層次的紋理細節。模型的架構如下圖所示:
架構圖中顯示了自拍到卡通的訓練過程,省略了卡通到自拍的過程。
生成器首先將自拍轉換為手繪卡通影象,最後另一個生成器又將生成的手繪卡通轉換會自拍照。對於卡通影象來說也基於同樣的過程來訓練模型。考慮到卡通影象的紋理特徵和資料集的大小,模型中使用了Unet的架構,可以更好的保證面部及五官的邊緣特徵。判別器則使用了基於影象片的方法,不僅需要判別卡通形式的對抗損失,在模型的另一方面訓練中還需要判斷真實影象的對抗損失。
除了對抗損失外研究人員在這一架構中加入了 三項新的損失,分別是注意力迴圈損失、總變分損失和感知損失。
受到cycleGAN中迴圈連續損失的啟發,研究人員提出了注意力迴圈損失來引導生成更好的生成面部的主要細節。例如眼影、瞳孔、鼻翼、嘴角等。針對這些面部區域網路給予更多的注意。在這一工作中,研究人員利用人臉識別方法標記出了4個區域,分別是完整自拍、眼睛、鼻子和嘴。針對每個區域設定對應的權重來構造損失。
此外由於卡通影象具有高度簡化的特徵和均勻的顏色,需要在畫素級損失上進行引導。研究人員觀察到畫師的作品(左)僅僅在邊緣具有較大的梯度變化,而大多數區域中梯度變化較小。生成的影象則全域性都具有雜亂的梯度場。
從上面的梯度圖中可以看出,要生成高質量的卡通化自拍,還需要在保持主要邊緣梯度的情況下移除其他區域的提出。所以研究人員提出了總變分作為損失來最小化合成影象與手繪影象間的梯度差,這一方法可以很好的移除臉頰處的陰影,更精確的刻畫鼻子。
最後為了保留輸出影象中的空間結構和內容特徵,研究人員利用VGG中conv4_4層來計算生成影象與對應影象間的感知損失。最後的損失函式如下所示:
為了訓練模型,研究人員通過谷歌圖片搜尋利用關鍵詞搜尋了3524張肖像照,同時從線上繪畫商店中下載了手繪、水彩和動漫等不同風格共計4580張卡通影象。通過訓練後,下圖是與目前幾種基於深度學習方法的對比:
最後一列是本文提出的方法
可以看到這種方法在整體上優於目前的深度學習方法。NST雖然保留了面部細節但無法有效學習風格特徵,cartoonGAN生成的效果則無法保留原始影象中的內容資訊,特別是眼部特徵丟失嚴重。UNIT和cycleGAN的效果稍好,但是在臉頰、嘴和鼻子等位置還有很多令人不滿意的地方。下表是本文方法的感知評斷得分表,明顯好於其他幾種方法:
研究人員隨後還對三種損失進行了消融性分析。下圖中的be沒有加總變分損失tv,而cf則加入了總變分損失。可以看到加入損失後眼線更加清晰、臉頰也更加平滑無影。這對於現實情況中複雜的光照和背景十分有用。
對於注意力迴圈和感知損失的消融性分析,可以看到在只使用迴圈損失時效果並不好,而加入了注意力迴圈損失後五官的生成質量得到了提升,感知損失同時保留了更多低層級的重要特徵(眉毛和脣色)。
最後讓我們在來體會下各種卡通的自拍照吧,看看動漫的頭像:
或者來個水彩風格:
今天開工了,給自己換個美麗的頭像好好加油啊!!
ref:
https://arxiv.org/pdf/1904.12615.pdfCycleGAN: https://junyanz.github.io/CycleGAN/
CartoonGAN: http://openaccess.thecvf.com/content_cvpr_2018/papers/Chen_CartoonGAN_Generative_Adversarial_CVPR_2018_paper.pdf
-The End-
將門 是一家 以專注於 發掘、加速及投資技術驅動型創業公司 的新型 創投機構 ,旗下涵蓋 將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由 微軟創投在中國的創始團隊 原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。
將門創新服務 專注於使創新的技術落地於真正的應用場景,啟用和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。
將門技術社群 專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。
將門創投基金 專注於投資通過技術創新啟用商業場景,實現商業價值的初創企業,關注技術領域包括 機器智慧、物聯網、自然人機互動、企業計算。 在三年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、 寬拓科技、 杉數科技、迪英加科技等數十傢俱有高成長潛力的技術型創業公司。
如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務, 歡迎傳送或者推薦專案給我“門”: [email protected]
點選右上角,把文章分享到朋友圈
點選“ ❀在看 ”,讓更多朋友們看到吧~