低清視訊也能快速轉高清：超解析度演算法TecoGAN

演算法 GAN · 發表 2019-04-16 15:06:16

摘要：來自慕尼黑工業大學的研究人員提出了一種用於實現視訊超解析度的新型 GAN——TecoGAN。利用該技術能夠生成精細的細節，甚至蜘蛛背上的斑點都清晰可見，同時還能保持視訊的連貫性。影象超解析度技術指的是根據低解析度影象生成高解析度影象的過程，該技術希望根據已有的影象資訊重構出缺失的影...

來自慕尼黑工業大學的研究人員提出了一種用於實現視訊超解析度的新型 GAN——TecoGAN。利用該技術能夠生成精細的細節，甚至蜘蛛背上的斑點都清晰可見，同時還能保持視訊的連貫性。

影象超解析度技術指的是根據低解析度影象生成高解析度影象的過程，該技術希望根據已有的影象資訊重構出缺失的影象細節。視訊超解析度技術則更加複雜，不僅需要生成細節豐富的一幀幀影象，還要保持影象之間的連貫性。

在一篇名為「Temporally Coherent GANs for Video Super-Resolution (TecoGAN)」的論文中，來自慕尼黑工業大學的研究人員提出了一種用於實現視訊超解析度的新型 GAN ——TecoGAN。

此前，已經有開發者利用 ESRGAN 這種視訊超解析度模型重製了很多單機遊戲，包括經典的重返德軍總部、馬克思·佩恩和上古卷軸 III：晨風等等。重製的高清版遊戲在畫質上有很好的效果，而且還保留了原始紋理的美感與風格。

以下三幅動圖的右半部分是用 TecoGAN 生成的，說不定用它來重製單機遊戲會有更驚人的效果。該方法能夠生成精細的細節，較長的生成視訊序列也不會影響其時間連貫度。

圖中，動物皮的網格結構、蜥蜴的圖案和蜘蛛背部的斑點無不彰顯該方法的效果。該方法中的時空判別器在引導生成器網路輸出連貫細節方面居功至偉。

這個視訊超解析度 GAN 牛在哪裡？

自然影象超解析度是影象和視訊處理領域的一大經典難題。對於單一影象超解析度（SISR），基於深度學習的方法可以達到當前最佳的峰值信噪比（PSNR），而基於 GAN 的架構在感知質量方面實現了重大改進。

在視訊超解析度（VSR）任務中，現有的方法主要使用標準損失函式，如均方差損失，而不是對抗損失函式。類似地，對結果的評估仍然聚焦於基於向量範數的指標，如 PSNR 和結構相似性（Structural Similarity，SSIM）指標。與 SISR 相比，VSR 的主要難點在於如何獲取清晰的結果，且不會出現不自然的偽影。基於均方差損失，近期的 VSR 任務使用來自低解析度輸入的多個幀 [13]，或重用之前生成的結果 [28] 來改進時間連貫度。

儘管對抗訓練可以改善單個影象的視覺質量，但它並不常用於視訊。在視訊序列案例中，我們不僅要研究任意的自然細節，還要研究可以穩定形式基於較長影象序列生成的細節。

該研究首次提出了一種對抗和迴圈訓練方法，以監督空間高頻細節和時間關係。在沒有真值動態的情況下，時空對抗損失和迴圈結構可使該模型生成照片級真實度的細節，同時使幀與幀之間的生成結構保持連貫。研究者還發現了一種使用對抗損失的迴圈架構可能會出現的新型模型崩潰，並提出了一種雙向損失函式用於移除對應的偽影。

該研究的核心貢獻包括：

提出首個時空判別器，以獲得逼真和連貫的視訊超解析度；
提出新型 Ping-Pong 損失，以解決迴圈偽影；
從空間細節和時間連貫度方面進行詳細的評估；
提出新型評估指標，基於動態估計和感知距離來量化時間連貫度。

論文：Temporally Coherent GANs for Video Super-Resolution (TecoGAN)

論文連結：https://arxiv.org/pdf/1811.09393.pdf

摘要：對抗訓練在單影象超解析度任務中非常成功，因為它可以獲得逼真、高度細緻的輸出結果。因此，當前最優的視訊超解析度方法仍然支援較簡單的範數（如 L2）作為對抗損失函式。直接向量範數作損失函式求平均的本質可以輕鬆帶來時間流暢度和連貫度，但生成影象缺乏空間細節。該研究提出了一種用於視訊超解析度的對抗訓練方法，可以使解析度具備時間連貫度，同時不會損失空間細節。

該研究聚焦於新型損失的形成，並基於已構建的生成器框架展示了其效能。研究者證明時間對抗學習是獲得照片級真實度和時間連貫細節的關鍵。除了時空判別器以外，研究者還提出新型損失函式Ping-Pong，該函式可以有效移除迴圈網路中的時間偽影，且不會降低視覺質量。之前的研究並未解決量化視訊超解析度任務中時間連貫度的問題。該研究提出了一組指標來評估準確率和隨時間變化的視覺質量。使用者調研結果與這些指標判斷的結果一致。總之，該方法優於之前的研究，它能夠得到更加細節化的影象，同時時間變化更加自然。

模型方法

該研究提出的 VSR 架構包含三個元件：迴圈生成器、流估計網路和時空判別器。生成器 G 基於低解析度輸入迴圈地生成高解析度視訊幀。流估計網路 F 學習幀與幀之間的動態補償，以幫助生成器和時空判別器 D_s,t。

訓練過程中，生成器和流估計器一起訓練，以欺騙時空判別器 D_s,t。該判別器是核心元件，因為它既考慮空間因素又考慮時間因素，並對存在不現實的時間不連貫性的結果進行懲罰。這樣，就需要 G 來生成與之前幀連續的高頻細節。訓練完成後，D_s,t 的額外複雜度不會有什麼影響，除非需要 G 和 F 的訓練模型來推斷新的超解析度視訊輸出。

圖 2： 具備動態補償（motion compensation）的迴圈生成器。

該研究提出的判別器結構如圖 3 所示。它接收了兩組輸入：真值和生成結果。

圖 3： 時空判別器的輸入。

損失函式

為了移除不想要的細節長期漂移，研究者提出一種新型損失函式「Ping-Pong」(PP) 損失。

圖 4： a）不使用 PP 損失訓練出的結果。 b）使用 PP 損失訓練出的結果。 後者成功移除了漂移偽影（drifting artifact）。

如圖 4b 所示，PP 損失成功移除了漂移偽影，同時保留了適當的高頻細節。此外，這種損失結構可以有效增加訓練資料集的規模，是一種有用的資料增強方式。

該研究使用具備 ping-pong ordering 的擴充套件序列來訓練網路，如圖 5 所示。即最終附加了逆轉版本，該版本將兩個「leg」的生成輸出保持一致。PP 損失的公式如下所示：

圖 5： 使用該研究提出的 Ping-Pong 損失，g_t 和 之間的 L_2 距離得到最小化，以移除漂移偽影、改進時間連貫度。

實驗結果

研究者通過控制變數研究說明了 L_(G,F) 中單個損失項的效果。

圖 6： 樹葉場景對比。 對抗模型（ENet、DsOnly、DsDt、DsDtPP、 和 TecoGAN）比使用 L_2 損失訓練的方法（FRVSR 和 DUF）具備更好的視覺效果。右圖「temporal profiles」中，DsDt、DsDtPP 和 TecoGAN 在時間連續性上顯著優於 ENet 和 DsOnly。本文提出的判別器網路的時間資訊成功抑制了這些偽影。