乾貨 | 視訊顯著性目標檢測（文末附有完整原始碼）

計算機視覺 · 發表 2019-04-29 11:04:57

摘要：顯著性檢測近年來引起了廣泛的研究興趣。這種日益流行的原因在於在各種視覺任務(如影象分割、目標檢測、視訊摘要和壓縮等)中有效地使用了這些模型。顯著性模型大致可分為兩類：人眼注視預測和顯著目標檢測。根據輸入型別，可進一步分為靜態顯著性模型和動態顯著...

顯著性檢測近年來引起了廣泛的研究興趣。這種日益流行的原因在於在各種視覺任務(如影象分割、目標檢測、視訊摘要和壓縮等)中有效地使用了這些模型。顯著性模型大致可分為兩類： 人眼注視預測 和 顯著目標檢測 。根據輸入型別，可進一步分為靜態顯著性模型和動態顯著性模型。

背景

將CNN應用於視訊顯著性的第一個問題是缺乏足夠大、標記密集的視訊訓練資料。據我所知，CNN在計算機視覺方面的成功在很大程度上歸功於大規模標註影象的可用性。然而，現有的視訊資料集太小，無法為CNN提供足夠的訓練資料。

[9] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang,A. Karpathy, A. Khosla, M. Bernstein et al., “Imagenet large scale visual recognition challenge,” International Journal of Computer Vision, vol.115, no. 3, pp. 211–252, 2015.
[10] T. Brox and J. Malik, “Object segmentation by long term analysis of point trajectories,” in European Conference on Computer Vision, 2010, pp. 282–295.
[11] F. Li, T. Kim, A. Humayun, D. Tsai, and J. M. Rehg, “Video segmentation by tracking many figure-ground segments,” in IEEE International Conference on Computer Vision, 2013, pp. 2192–2199.
[12] F. Galasso, N. Shankar Nagaraja, T. Jimenez Cardenas, T. Brox, and B. Schiele, “A unified video segmentation benchmark: Annotation, metrics and analysis,” in IEEE International Conference on Computer Vision, 2013, pp. 3527–3534.
[13] F. Perazzi, J. Pont-Tuset, B. McWilliams, L. V. Gool, M. Gross, and A. Sorkine-Hornung, “A benchmark dataset and evaluation methodology for video object segmentation,” in IEEE Conference on Computer Vision and Pattern Recognition, 2016.

在上表中，列出了ImageNet資料集的統計資料和廣泛採用的視訊目標分割資料集，包括FBMS、SegTrackV 2、VSB 100和Davis。

可以看到，現有的視訊資料集在質量和數量上都很少與現有的影象資料集(如ImageNet)相匹配。另外，考慮到同一視訊片段幀間的高度相關性，現有的視訊資料集遠遠不能滿足像視訊顯著目標檢測等畫素級視訊應用的CNN訓練需求。另一方面，就目前而言，建立如此大規模的視訊資料集通常是不可行的，因為註釋視訊既複雜又耗時。

為此就提出了一種綜合生成標記視訊訓練資料的視訊資料增強方法，該方法充分利用了現有的大規模影象分割資料集。模擬視訊資料易於獲取和快速生成，接近真實視訊序列，呈現各種運動模式、變形，伴隨著自動生成的註解和光流。通過這些自動生成的視訊的實驗結果，很好地證明了新策略的實用性。

摘要 & 概述

為了有效地檢測視訊中的顯著區域，提出了一種深度學習模型。它解決了兩個重要的問題：(1)深度視訊顯著性模型訓練，缺乏足夠大的畫素標註視訊資料；(2)快速視訊顯著性訓練和檢測。

提出的深度視訊顯著性網路由兩個模組組成，分別用於捕獲視訊的時空顯著性資訊。動態顯著性模型顯式地結合了靜態顯著性模型中的顯著性估計，直接產生時空顯著性推理，而不需要耗時的光流計算。進一步提出了一種新的資料增強技術，它模擬現有帶註釋的影象資料集中的視訊訓練資料，使新的網路能夠學習不同的顯著性資訊，並防止與有限數量的訓練視訊過度匹配。利用合成視訊資料(150K視訊序列)和真實視訊，新提出的深度視訊顯著性模型成功地學習了時空顯著性線索，從而產生了準確的時空顯著性估計。

相關工作

1、顯著性檢測

顯著性檢測在計算機視覺中得到了廣泛的研究，其顯著性模型一般可分為視覺注意預測或顯著目標檢測。前幾種方法：

L. Itti, C. Koch, E. Niebur et al., “A model of saliency-based visual attention for rapid scene analysis,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 20, no. 11, pp. 1254–1259, 1998.
J. Harel, C. Koch, and P. Perona, “Graph-based visual saliency,” in Advances in Neural Information Processing Systems, 2006, pp. 545–552.
T. Judd, K. Ehinger, F. Durand, and A. Torralba, “Learning to predict where humans look,” in IEEE International Conference on Computer Vision, 2009, pp. 2106–2113.

以上試圖預測人類觀察者可能注視的場景位置。顯著目標檢測旨在統一突出區域，這已被證明有利於廣泛的計算機視覺應用。對顯著性模型的更詳細審查見：

A. Borji and L. Itti, “State-of-the-art in visual attention modeling,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 35, no. 1, pp. 185–207, 2013.
A. Borji, M.-M. Cheng, H. Jiang, and J. Li, “Salient object detection: A benchmark,” IEEE Transactions on Image Processing, vol. 24, no. 12, pp. 5706–5722, 2015.

根據顯著性模型的輸入，將顯著性模型進一步分為靜態模型和動態模型。在本次講解中中，我們的目標是檢測視訊中的突出目標區域。影象顯著性檢測已經被廣泛的研究了幾十年，大多數的方法都是由眾所周知的自下而上的策略驅動的。早期的自下而上模型主要是基於檢測對比度，假設視場中的顯著區域首先從周圍環境中突出出來，然後根據不同的數學原理計算基於特徵的對比度。同時，一些其他的機制也提出採用一些先驗知識，例如背景先驗或全域性資訊來檢測靜止影象中的突出物體。

Y. Wei, F. Wen, W. Zhu, and J. Sun, “Geodesic saliency using background priors,” in European Conference on Computer Vision, 2012, pp. 29–42.
W. Zhu, S. Liang, Y. Wei, and J. Sun, “Saliency optimization from robust background detection,” in IEEE Conference on Computer Vision and Pattern Recognition, 2014, pp. 2814–2821.

近年來，深度學習技術被引入到影象顯著性檢測中。這些方法通常使用CNN審查大量區域候選，從中選擇突出的物件。目前，越來越多的方法傾向於以端到端的方式學習，並通過全卷積網路(FCNs)直接生成畫素級顯著性對映。

近年來，顯著性檢測的邊界已經擴充套件到捕獲相關影象/視訊之間的共同顯著性，用視訊序列或場景理解推斷顯著性事件。然而，上述方法與傳統的顯著性檢測方法存在顯著差異，特別是考慮到它們的目標和核心困難。

W. Wang, J. Shen, X. Li, and F. Porikli, “Robust video object cosegmentation,” IEEE Transactions on Image Processing, vol. 24, no. 10, pp. 3137-3148, 2015.
W. Wang, and J. Shen, “Higher-order image co-segmentation,” IEEE Transactions on Multimedia, vol. 18, no. 6, pp. 1011–1021, 2016.
D. Zhang, D. Meng, and J. Han, “Co-saliency detection via a self-paced multiple-instance learning framework,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 39, no. 5, pp. 865–878, 2017.

動態場景中的深度學習模型

主要研究動態場景中計算機視覺應用的著名深入學習模型，包括行為識別，目標分割，目標跟蹤，注意預測和語義切分，並探討它們的結構和訓練方案。這將有助於澄清新方法與以往的努力有何不同，並將有助於突出效力和效率方面的重要利益。許多方法直接將單個視訊幀輸入到對影象資料進行訓練的神經網路中，並採用各種技術對結果進行時間或運動資訊的後處理。

不幸的是，這些神經網路放棄了對時間資訊的學習，而時間資訊在視訊處理應用中往往是非常重要的。（ K. Simonyan and A. Zisserman, “Two-stream convolutional networks for action recognition in videos,” in Advances in Neural Information Processing Systems, 2014, pp. 568–576. ）提出了一種著名的用於視訊中動作識別的CNN訓練結構，該結構結合了兩個流卷積網路來學習影象和運動的互補資訊。其他工作採用這種結構進行動態注意預測和視訊物件分割。然而，這些方法在多幀密集光流下訓練模型，計算量很大。在人體姿態估計和視訊物件處理方面，引入了線上學習策略，以提高人體姿態估計和視訊物件處理的效能。在處理輸入視訊之前，這些方法產生各種訓練樣本，用於微調從影象資料中學習到的神經網路，從而使模型能夠針對測試視訊序列中感興趣的物件進行優化。顯然，這些模型很費時，而精調的模型只專門針對特定的物件類。

視訊顯著性檢測

框架概述

在下面詳細介紹之前，我首先對深度視訊顯著性模型進行概述。在較高的層次上，將視訊幀輸入到神經網路中，網路依次輸出顯著性對映，其中較亮的畫素表示更高的顯著性值。該網路使用視訊序列和影象進行訓練，並在一般動態場景中學習時空顯著性。

上圖顯示出了所提出的深度視訊顯著性模型的結構。在經典的人類視覺感知研究的啟發下，即靜態顯著性線索和動態顯著性線索對視訊顯著性的貢獻，設計了兩個模組，同時考慮了場景的時空特性。

第一個模組是以單幀影象為輸入，捕獲靜態性。它採用全卷積網路(FCNs)生成畫素級顯著性估計，並利用以往優秀的預訓練模型對大規模影象資料集進行預處理。在豐富的影象顯著性基準的推動下，該模組被有效地訓練來獲取感興趣物件的各種靜態顯著性資訊。第二模組以來自第一模組的幀對和靜態顯著性作為輸入，生成最終的動態顯著性結果。這個網路是從合成的和真實的標記視訊資料中訓練出來的。

靜態顯著性深層網路

在網路頂部，採用1×1卷積核的卷積層將特徵對映y通過sigmoid啟用單元對映成精確的顯著性預測對映p。對pred使用sigmoid層，以便輸出中的每個條目在0和1的範圍內有一個實際值。由於FCN的使用，網路允許對任意大小的輸入影象進行操作，並保留空間資訊。上圖說明了深層網路的靜態顯著性的詳細配置。

動態顯著性的深層網路

現在我們來描述時空顯著性網路。如上圖所示，該網路與基於FCN的靜態顯著性網路結構相似，包括多層卷積和反捲積。動態網路與靜態顯著性結果一起學習動態顯著性資訊，從而直接生成時空顯著性估計。

與某些技術中常用的雙流網路結構相比，新技術將靜態網路的輸出合併為動態顯著性模型，直接產生時空顯著性結果。這種架構有兩個優點。首先，將動態和靜態顯著性融合顯式地嵌入到動態顯著性網路中，而不是訓練時空特徵的雙流網路，專門設計了一個時空特徵融合網路。其次，該模型利用光流影象對相鄰兩幀的時間資訊進行直接推斷，而不是以往的方法，從而獲得了較高的計算效率。

實驗結果

實驗結果視覺化