前景目標檢測的無監督學習

無監督學習 · 發表 2018-10-15 07:29:41

摘要：無監督學習是當今計算機視覺領域最困難的挑戰之一。這項任務在人工智慧和新興技術中有著巨大的實用價值，因為可以用相對較低的成本收集大量未標註的視訊。 —————— 01 概述 —————— 今天，我們介紹的這個技術在對單個影象中的主要前景目標進行檢測的背景下，研究了無監督學習問題。...

無監督學習是當今計算機視覺領域最困難的挑戰之一。這項任務在人工智慧和新興技術中有著巨大的實用價值，因為可以用相對較低的成本收集大量未標註的視訊。

——————

01 概述

——————

今天，我們介紹的這個技術在對單個影象中的主要前景目標進行檢測的背景下，研究了無監督學習問題。我們訓練student deep network來預測techer路徑的輸出，該路徑在視訊或大型影象集合中執行無監督的目標發現。該方法不同於已發表的無監督目標發現方法。

在訓練期間，移動無監督學習階段，然後在測試階段沿著student路徑應用標準的前向處理。這種策略的好處是可以在訓練期間增加泛化的可能性，同時保持測試的快速性。該無監督學習演算法可以跨越幾代student-teacher的訓練。

因此，一群在第一代中接受訓練的 student deep network 共同造就了下一代的teacher。實驗表明，該方法在視訊目標發現、無監督影象分割和顯著性檢測三個方面取得了較好的效果。在測試時，所提出的系統速度快，比已發表的無監督方法快一到兩個數量級。

——————

02 背景

——————

無監督學習是當今計算機視覺和機器學習中最困難、最重要的問題之一。許多研究人員認為，從大量未貼標籤的視訊中學習可以幫助破解有關智力和學習本質的難題。此外，由於未標註的視訊易於以較低的成本收集，因此無監督學習在許多計算機視覺和機器人應用中具有實際的實用價值。今天介紹的，就是提出了一種新的無監督學習方法，它成功地解決了與此任務相關的許多挑戰。

提出了一個系統，該系統由兩條主要路徑組成，一條是在視訊或大型影象集合中沿teacher分支進行無監督的目標發現，另一種是student分支，它向teacher學習，在單個影象中檢測前景目標。該方法是普遍的，因為student或teacher的路徑不依賴於特定的神經網路架構或實現。此外，該方法允許無監督的學習過程在數代student和teacher中繼續進行。在 演算法1 中，給出了該方法的高階描述。

也會將在整個技術中交替使用 演算法1 的“生成”和“迭代”兩個術語。這項工作的初步版本，在幾個領域沒有提出學習的可能性，而且在2017年ICCV上出現的實驗結果也較少(Croitoru等人(2017年)。

在上圖中，展示了整個系統的圖表概述。在無監督訓練階段，student網路(模組A)從無監督的teacher路徑(模組B和模組C)逐幀學習，在單個影象中產生相似的目標掩碼。Student分支試圖對每一幀輸入teacher的輸出，同時作為輸入只有一個影象-當前幀。另一方面，teacher可以訪問整個視訊序列。演算法1中提出的方法在從一次迭代(生成)到下一次迭代(生成)過程中遵循系統的主要步驟。下面將更詳細地討論這些步驟。

—————— ——

03 總體方法

—————— ——

提出了一種真正的無監督學習的前景目標檢測演算法，為前景目標檢測提供了經過多次迭代改進的可能性。該方法以互補的方式結合了適合這個任務的多個模組。它從teacher路徑開始，在未標記的視訊中發現物件，並在每個幀中生成前景目標的soft-mask。產生的低質量 soft-mask 然後被自動過濾掉。

接下來，將剩下的內容傳遞給Student ConvNet，後者學習在單個影象中預測目標掩碼。當幾個不同架構的 Student ConvNet 被學習後，他們為下一代形成了一個新的teacher，然後整個過程被重複。在下一次迭代中，引入更多未標註的資料，以無監督的方式學習更好的資料選擇機制，並最終訓練出更強大的 Student ConvNet 。在演算法1中，簡要地列舉了該方法的主要步驟。

Figure 1

—————— ——

04 系統框架

—————— ——

4.1 Student Path：單影象分割

Student處理路徑(圖1中的模組A)由一個深層次的卷積網路組成。測試了不同的神經網路體系結構，其中一些在最近關於語義影象分割的文獻中得到了廣泛的應用。於是，建立了一個由相對多樣化的體系結構組成的small pool，接下來將介紹。

測試的第一個用於語義分割的卷積網路結構是基於更傳統的CNN設計的。由於它的低解析度Soft-mask輸出，稱它為LowRes-net(見Figure 2 )。它有十個層(七個卷積層、兩個池化層和一個全連線層)和skip connections 。

事實證明， skip connection 可以提高效能，如文獻所示(Raiko等人(2012年)；Pinheiro等人(2016年)。我們還觀察到，在使用 skip connection 時，實驗也有類似的改進。LowRes-net以128×128 RGB影象(以及它的色調、飽和度和導數w.r.t.x和y)作為輸入，並對影象中的主要目標進行32×32的軟分割。由於 LowRes-net 在頂部有一個全連線層，因此降低軟分割掩碼的輸出解析度，以限制記憶體開銷。雖然w.r.tx和y在原則上是不需要的(因為它們可以在訓練期間通過適當的過濾器來學習)，但是在測試中，明確地提供了與HSV一起的衍生產品，並且使用了 skip connection ，使準確率提高了1%以上。LowRes-net共有78M個引數，大部分都在最後一個全連線的層中。

Raiko等人(2012年)：

Raiko T, Valpola H, LeCun Y (2012) Deep learning made easier by linear transformations in perceptrons. In: AIS- TATS, vol 22, pp 924–932

Pinheiro等人(2016年)：

Pinheiro PO, Lin TY, Collobert R, Dolla ́r P (2016) Learning to refine object segments. In: ECCV

Figure 2

4.2 Teacher Path：在視訊中無監督挖掘

VideoPCA：

視訊主成分分析的主要思想是對視訊幀中的背景進行主成分分析。利用主成分分析(PCA)模型，將初始前景區域作為幀的一部分進行重建。前景物體比背景小，具有鮮明的外觀和更復雜的運動。它們可以被看作是孤立點，在更大的背景場景中。這使得它們不太可能被第一個PCA元件很好地捕獲。因此，對於每個幀，一個初始soft-mask是從一個錯誤影象處理，這是原始影象和PCA重建之間的差異。這些誤差影象首先用大高斯濾波器平滑，然後進行閾值處理。所獲得的二值掩碼用於學習前景和背景的顏色模型，根據這些模型將單個畫素劃分為屬於前景或不屬於前景。根據前景物體往往更接近影象中心的假設，所獲得的目標掩碼與大中心高斯進一步相乘。這些是系統中使用的最後一個掩碼。關於更多技術細節，請閱讀Stretcu和Leordeanu(2015年)。

在本工作中使用的方法與在（ https://sites.google.com/site/multipleframesmatching/ ）中發現的方法完全相同，無需任何引數調整。

Stretcu和Leordeanu(2015年)：

Stretcu O, Leordeanu M (2015) Multiple frames matching for object discovery in video. In: BMVC

下一代teacher path：

在演算法1的下一次迭代中，用在前一次迭代中訓練的 Student ConvNet 以下列方式取代VideoPCA(模組B)。雖然可以使用兩個元件中的任何一個多網或多選擇網作為新模組B，但為了更簡單、更有效的方法。

對於每個未標記的訓練影象，執行所有的 Student ConvNet 並獲得多個soft-mask，而不是將它們組合在一起來產生每個影象的單個輸出。因此，新模組B是所有 Student ConvNet 並行工作的集合。然後，它們的soft-mask由圖1中的新模組C獨立過濾(使用給定的閾值)，該模組在EvalSeg-net的第二次迭代中表示。

注意，以這種方式可以為給定的訓練影象獲得一個、幾個或沒有軟分割。這種方法是快速的，它提供了在多個GPU上並行處理資料的優點，而不必等待所有的 Student ConvNet 完成每個輸入影象。實驗表明，該方法也是有效的，在第二代時取得了更好的效果。

Mask 選擇評價：

在Figure 3 中，給出了分割效能w.r.t真實的目標框(僅用於評估)與自動選擇後保持的掩碼百分位數之間的依賴關係(用於兩代人)。我們注意到保持幀的百分比與分割質量之間存在很強的相關性。同樣明顯的是，EValSeg-net比迭代1中使用的更簡單的過程要好得多。即使在更復雜的情況下，EvaSeg-net也能夠正確地評估軟分段(見 Figure 4 )。

Figure 3

Figure 4

計算和儲存費用：

在訓練過程中，演算法1第一次迭代期間通過teacher path的計算時間約為2-3天：它需要處理來自VID和YTO資料集的資料，包括執行VideoPCA模組。

然後，訓練第一次迭代的Student，可以訪問6個GPU，大約需要5天-訓練5個不同的student體系結構需要6個GPU，因為FConv-net的訓練需要兩個GPU並行。

接下來，在一個GPU上訓練EvalSeg-net需要額外4天。

在第二次迭代中，通過 teacher path 處理資料需要在6個GPU上並行處理大約3周-由於使用EvalSeg-net只從其中選擇了很小的百分比(約10%)的更大的訓練集，因此成本更高。最後，訓練第二代student需要2周的時間。

總之，訓練所需的總計算時間(完全可以訪問6個GPU)大約是7周，此時一切都進行了優化。總儲存成本約為4TB。在測試時， Student Net 速度很快，每幅影象花費0.02秒，而集合網每幅影象花費大約0.15秒。

—————— —

05 實驗

—————— —

在YouTube Objects v1上的結果

在Internet Images上的結果

在Pascal-S上的結果

Teacher， individual student nets 和組合的比較，跨越兩代(藍線-第一次迭代；紅線-第二次迭代)。I ndividual student 在兩次迭代中都優於teacher，而組合甚至比 individual nets 更強。對於第二個迭代teacher，整合的MultiSelect-Net版本(因為這是一個上限)。圖是根據YouTube物件資料集上的結果使用CorLoc度量(百分比)計算的。

資料選擇對兩次迭代的影響

每次迭代時模型之間的視覺比較(生成)。用一個紫色的點標記了MultiSelect-net的輸出(EvalSeg-net是最優秀的student soft-mask)。Multi-net表示五種模型之間的畫素相乘，注意第二代的高階mask，有更好的形狀，更少的洞和更鋒利的邊緣。

VID資料集的定性結果

關於 Object Discovery 資料集的定性結果與(B)Rubinstein等人(2013年)相比

Rubinstein等人(2013年)：

Rubinstein M, Joulin A, Kopf J, Liu C (2013) Unsupervised joint object discovery and segmentation in internet im- ages. In: CVPR

Internet Images 中物體發現的定性結果

—— —————— —

06 總結&展望

—— —————— —

在本次分享中，內容較多，現在我慢慢給大家總結。

首先，提出了一種新的、有效的視訊學習方法，在沒有監督的情況下，在單個影象中檢測前景目標。針對這一任務，提出了一種相對通用的演算法，為幾代student和teacher的學習提供了可能。在實踐中證明，該系統在兩代人的過程中提高了效能。還測試了不同的系統元件對效能的影響，並在三個不同的資料集上顯示了最新的結果。

據我們所知，這是第一個系統，學習檢測和分割前景物件的影象以無監督的方式，沒有預先訓練的特徵或手動標記，在測試時間而只需要一張影象。

沿著student路徑訓練的卷積網路能夠學習一般的“客觀”特徵，包括良好的形式、閉包、平滑的輪廓以及與背景的對比。隨著時間的推移，最初的視訊PCA teacher發現了什麼，深而複雜的student能夠在不同抽象層次的幾層現代特徵中學習。

關於轉移學習實驗的結果也是令人鼓舞的，並且顯示了這樣一個系統可能有用的更多的例子。在今後的工作中，將計劃進一步提高計算和儲存能力，以演示提出的無監督學習演算法的強大能力，以及許多代student和teacher nets。

我們相信，該方法在廣泛的實驗中測試，對於計算機視覺研究將帶來寶貴的貢獻。

—— —— ——————

07 “計算機視覺戰隊”

—— —— —————— — ——— —

文章下載地址：

https://pan.baidu.com/s/1lc16TvAtQpyB4C7FrexVNA

如果想加入我們“ 計算機視覺戰隊 ”，請掃二維碼加入學習群，我們一起學習進步，探索領域中更深奧更有趣的知識！

前景目標檢測的無監督學習

——————

——————

—————— ——

4.1 Student Path：單影象分割

Raiko T, Valpola H, LeCun Y (2012) Deep learning made easier by linear transformations in perceptrons. In: AIS- TATS, vol 22, pp 924–932

Pinheiro PO, Lin TY, Collobert R, Dolla ́r P (2016) Learning to refine object segments. In: ECCV

Stretcu O, Leordeanu M (2015) Multiple frames matching for object discovery in video. In: BMVC

下一代teacher path：

Mask 選擇評價：

計算和儲存費用：

07 “計算機視覺戰隊”

您可能也會喜歡…