李飛飛團隊新作：一種補全視覺資訊庫的半監督方法

圖模型決策樹 · 發表 2019-05-11 14:29:25

摘要：視覺資訊庫，例如 Visual Genome 資料庫，在計算機視覺方面驅動了著大量的應用發展，包括視覺問答和影象標註等。但同時，視覺知識庫也具有稀疏、欠完備等缺點。使用人工標註是非常昂貴的，而基於紋理知識的補全方法則無法與視覺資料相容。斯坦福大學李飛飛團隊提出了一種半監督方法，使用少量標註...

視覺資訊庫，例如 Visual Genome 資料庫，在計算機視覺方面驅動了著大量的應用發展，包括視覺問答和影象標註等。但同時，視覺知識庫也具有稀疏、欠完備等缺點。使用人工標註是非常昂貴的，而基於紋理知識的補全方法則無法與視覺資料相容。斯坦福大學李飛飛團隊提出了一種半監督方法，使用少量標註樣本預測無標註樣本概率學標籤的方法。基於對視覺關係的分析，該方法啟發式地將兩種影象無關特徵進行使用基於圖的生成模型進行累計。在使用了少量標註樣本的關係樣本情況下，生成資料可以用於訓練現有的最好的場景圖模型。作者認為本文的方法是一種具有實際意義的使用有限的標籤進行訓練的方法（ the de-facto approach ）。實驗結果表明，該方法在解決場景圖預測資料標籤缺失方面具有優越的效能。本文是 AI 前線第 78 篇論文導讀。

1 什麼是場景圖預測？

為了使影象表徵形式化，Visual Genome 定義了 場景圖（Scene Graph）。 場景圖是一種結構化的形式，它與廣泛用於知識庫的表示方法具有相似的形式。場景圖將多個目標（例如：狗，飛盤）編碼為節點，這些節點之間通過成對的關係作為邊相連線（例如：在玩）。這種形式化的表達促進了影象標註、影象檢索、視覺問答、關係模型和影象生成等方面的發展。然而，對於沒有充分標註的例項，目前為止所有的場景圖模型都忽略了超過 98% 的關係類別（圖 1），這些模型主要側重於解決具有上千個標註資訊的例項的關係。

圖 1：視覺關係的統計表示，目前大多數模型主要集中於解決 Visual Genome 資料集中的前五十種關係，這些關係包含上千個已標記的例項。這導致超 98% 種僅包含少量標註例項的視覺關係被忽略了。

為了對人工標註進行補充，通過使用半監督學習或弱監督（遠監督）學習方法，許多基於文字知識補全的演算法應運而生。但這類方法對於視覺關係不具有良好的泛化能力，這使得針對視覺知識的特殊方法成為急需解決的問題。

本文提出了一種自動化生成缺失關係類標的方法，該方法使用少量的標註資料集自動化地生成類標用來訓練下游的場景圖模型（圖 2）

圖 2：本文提出的半監督方法可以生成無標籤資料的概率標籤然後用於訓練下游的場景圖模型

本文的作者首先從如何定義 影象無關 特徵（2.2 部分）對影象中的例項關係展開探索。例如， “吃” 這一行為通常由一個正在吃東西的目標和另一個比前者小的被吃的物體組成。再比如說看這個動作，該例項關係中通常包含手機、筆記本和視窗（圖 3）。在視覺關係中，這些規則不需要原始的畫素值並且可由 影象無關 特徵推斷而來，如物體類別、空間關係。儘管這些規則簡單明確，但它們對於尋找丟失的視覺關係中的潛力 尚未被挖掘 。

圖 3：視覺關係，如“飛”、“吃”和“坐”可以有效地被形象化表示為他們的類別（圖中 s 和 o 分別表示主體和客體）或空間特徵。改圖表示這些空間和類別特徵對某一視覺關係的重要性。

從上圖中可以看出， 影象無關 特徵可以在一些複雜視覺關係中捕獲變化，這些視覺關係由於例項間的相互差異很難直接被刻畫為某種表示。因此，為了量化我們的影象無關特徵的重要性，本文的作者定義了“子型別”用來測量空間和類別的變化。

2 視覺關係分析

2.1 相關術語

2.2 影象無關特徵

為了說明空間和類別特徵可以很好的描述不同的視覺關係，作者對於每一種視覺關係都訓練了一個決策樹模型。在圖 3 中畫出了 4 中視覺關係中最重要的幾個空間和類別特徵，例如，“飛”跟主體還有客體的 y- 軸左邊有很大的關係，“看”主要取決於物體類別（例如，手機、筆記本、窗戶）而不依賴於任何空間方向。

2.3 視覺關係的變化

為了系統的研究視覺關係的變化，作者將每個視覺關係定義為具有一定數量 子型別 的組合。例如，在圖 4 中，“騎”包含了一個類別子型別 < 人 - 騎 - 自行車 > 和另一個類別子型別 < 狗 - 騎 - 衝浪板 >。類似的，一個人可能會以多種不同的空間方式“拿”一個物體（例如，在頭上，在身側）。為了找到所有的空間子類，作者使用均值漂移聚類對 Visual Genome 中的所有視覺關係提取空間特徵。為了找到類別子類，作者對一個視覺關係中的所有物體類別進行了數量統計。

圖 4：同一視覺關係的不同子類，上半部分均為“騎”，下半部分均為“拿”。

3 方法

對於無標註的資料集 Du，作者使用了三步來獲得其概率標籤：（1）作者提取了已標註資料集 Dp 的影象不變特徵，同時結合目標檢測演算法提取 Du 中候選物體的影象不變特徵；（2）對影象不變特徵使用啟發式生成演算法；（3）使用基於因子圖的生成模型對概率標籤進行聚合並賦給 Du 中的未標註物體對。具體演算法在論文原文的 Algorithm1 中有詳細敘述，整個系統的端到端框架如圖 5 所示。

圖 5：本文提出演算法的整體框架圖，圖中以“拿”這一關係作為示例進行展示。

3.1 特徵提取

提取影象無關特徵需要用到現有的目標檢測演算法，這裡作者使用了 Mask-RCNN 來生成無標籤資料物體候選框，然後使用使用第三部分所述的影象無關特徵的定義計算無標註資料的影象無關特徵。對於已標註的資料，則直接利用其標註的候選框計算影象無關特徵。

3.2 啟發式生成

作者使用已標註的視覺關係中的空間和類別特徵訓練了一個決策樹。同時，作者對這些啟發式演算法的複雜度進行了約束以防止模型過擬合。這裡作者使用了淺層的決策樹網路，對於每一個特徵集使用不同的深度約束，這樣就產生了 J 個不同的決策樹。隨後作者使用了這些啟發式演算法預測無標籤資料集的標籤，得到所有無標籤關係的預測矩陣。

圖 6：視覺關係的一個子集，空間和類別子類決定了不同程度的複雜度。

為了更進一步的防止過擬合，作者通過設定一個置信度閾值對Λ進行調整。最終的啟發式演算法如圖 5 中的示例所示，當一個主體在客體上方時候，則會對謂語部分的拿這一動作的類標賦予正值。

3.3 生成模型

3.4 訓練場景圖模型

最終，這些概率類標被用於訓練任何一種場景圖模型。場景圖模型通常使用交叉熵損失進行訓練，作者對該函式進行了調整，這是為了將生成模型的標註錯誤也考慮進去。最終，作者使用了一種噪聲感知經驗誤差函式來優化場景圖模型：

其中θ是需要學習的引數，Π表示使用生成模型學到的分佈，Y 是真實類標，V 是使用任意場景圖預測模型提取的視覺相關特徵。

4 實驗

作者首先在 VRD 資料集上對生成模型的標註能力進行了測試，以驗證生成模型是否具有尋找丟失的視覺關係的能力。然後，作者使用生成的類標訓練了目前最好的場景圖模型。作者將生成的標籤與 Visual Genome 資料集的類標進行了比較。最後，作者將本文的方法與遷移學習方法進行了對比。VRD 和 Visual Genome 模型都是視覺關係預測和場景圖識別方向的兩個標準資料集。由於 Visual Genome 資料庫規模太大（108K 張影象），每個場景圖的標籤都不完整，因此作者僅在 VRD 資料集上對半監督演算法的進行了驗證。

作者為了驗證他們提出的半監督方法能夠很好地標註丟失的視覺關係，作者在 VRD 資料集的測試集上計算了精確度和召回率。實驗結果如下表所示：

為了展示概率標籤的效果，作調整了現有的場景圖模型並使用了三種標準評價模式：1）場景圖檢測（SGDET），該模式輸入影象，預測出其邊界框、物體類別和謂語類標。2）場景圖分類（SGCLS），該模式輸入真實邊界框，預測出影象的物體類別和謂語類標。3）謂語分類（PREDCLS），該模式輸入邊界框的真實集合和物體類別，預測影象的謂語類標。關於這三種任務的詳細介紹作者推薦了文章 [1] 供讀者們參考。本文的方法在這三個任務上的實驗結果如下表所示：

該表中，作者採用 ORACLE 作為模型效能的上邊界，因為這個方法的實驗結果是在整個 VIsual Genome 上訓練得到的，作者希望提出的方法能夠儘量與 ORACLE 達到相同的效果。表格的上半部分是一些基線方法，其中 DECISION TREE 是一種提取影象無關特徵的單決策樹方法，LABEL PROPAGATION 是一種應用廣泛的半監督方法,TRANFER LEARNING 則使用了一種通用的遷移學習方法進行訓練。

表格的下半部分是消融實驗結果，即對作者提出方法的每個部分進行有效性驗證。（CATEG.）表示僅使用類別特徵，（SPAT.）表示僅使用空間特徵，（DEEP）表示僅使用 ResNet50 提取的深度特徵，（CATEG.+SPAT.）表示使用級聯的類別和空間特徵，（CATEG.+SPAT.+DEEP）表示三者結合。（MAJORITY VOTE）則是使用類別和空間特徵，同時使用簡單的多數投票方法而不是使用生成模型來聚合啟發式函式的輸出的方法。可以看出本文提出的方法在多個模式下都體現出卓越的效果。

作者繪製了本文提出方法的類標賦值情況，與圖 3 中相關的影象無關特徵進行了比較，類標視覺化結果如下圖：

在 (a) 中，本文的模型預測出了“飛”這個位於，因為它學習到了“飛”這個動作表示兩個物體在 y 軸上的存在巨大差異。在（c）中，本文提出的模型則做出了錯誤的預測，將“掛”理解為了“坐”，這是因為模型過度的依賴於類別特徵中“椅子”和“坐”密不可分的關係。

5 結論

本文的作者首次提出了一種補全視覺資訊庫的半監督方法，該方法利用影象無關特徵儘可能地用少於 10 個標註例項來刻畫每一種視覺關係。然後通過對這些特徵進行啟發式學習訓練，最後使用生成模型為無標註影象分配概率標籤。作者在 VRD 資料集上進行了測試，實驗結果表明本文提出的模型效能在標註方面比標準的半監督方法（例如標籤傳播）高出了 11.84 點，F1 分數達到了 57.66。

為了進一步驗證生成類標的作用，作者對目前最好的場景圖模型進行微調從而使其可以使用生成的概率標籤進行訓練。使用概率標籤訓練後的模型在 Visual Genome 資料庫上達到了 46.53recall@100（召回率 100 時的識別準確率），與僅使用有標註例項訓練後的模型相比提升了 40.97 個點。同時，作者還與其他遷移學習方法進行了對比。在召回率為 100 時，本文提出的方法比其他遷移學習方法高出 5.16 個百分點，這是因為對於未標註的子類本文提出的方法具有更好的泛化能力，尤其是具有高複雜度的視覺關係。

英文論文原文： https://arxiv.org/abs/1904.11622