Hinton領銜谷歌大腦新研究,通過膠囊網路重構自動檢測對抗樣本
作者|Geoffrey Hinton等
編譯|馬卓奇
編輯|Debrasection
AI 前線導讀:膠囊網路(capsule network,CapsNet)可以自動把對抗樣本揪出來啦!這項研究來自 capsule 模型的原作者 Sabour、Frosst 以及 Hinton,相關論文將在 NIPS 2018 的機器學習安全研討會中展示。Hinton 團隊在 2017 年發表在 NIPS 上的論文曾經介紹,通過新增一個能夠從頂層膠囊的姿態引數和身份重構輸入影象的網路,可以提高膠囊網路的判別能力(Dynamic routing between capsules)。而在最新論文中,該團隊提出重構網路可以視作檢測對抗性攻擊的非常有效的方法:從獲勝的頂層膠囊的身份和姿態引數中重構輸入,以驗證網路能夠感知我們期望它從某個類的典型樣例中感知的東西。本文是 AI 前線第 59 篇論文導讀。
更多幹貨內容請關注微信公眾號“AI 前線”(ID:ai-front)
在這篇論文中,作者提出了一項簡單的方法,可以讓膠囊網路檢測出對抗影象樣本。除了影象分類的訓練任務之外,作者訓練膠囊網路根據頂層膠囊的姿態引數和身份來重構影象。由於對抗樣本看起來不像目標類的典型成員,因此從該類的頂層膠囊生成重構影象時,它們會有更大的重構誤差。實驗證明了在輸入影象和重構影象之間的 L2 距離上設定閾值可以有效檢測出攻擊影象。同樣的方法對於其他能夠從隱層重構影象的卷積神經網路也使用。作者進一步探索了更強的白盒攻擊,將重構誤差考慮在內。這種攻擊能夠欺騙檢測技術,但是為了能讓模型將預測結果改變為目標類別,必須使對抗影象類似於目標類別的影象。
介 紹
通過重構網路反向傳播的導數,可以讓頂層膠囊的姿態引數捕獲關於影象的大量資訊。這樣訓練的膠囊網路不僅可以輸出分類結果,而且可以輸出輸入影象的類別條件重構。重構子網路可以視作一種檢測對抗性攻擊的非常有效的方法。作者提出 DARCCC,是一種與攻擊獨立的檢測技術,它依賴於真實影象和對抗影象的類重構距離分佈之間的差異。作者進一步將 DARCCC 擴充套件到更標準的影象分類網路(卷積神經網路),並且在三個 MNIST、Fashion-MNIST 和 SVHN 資料集上證明了檢測方法對黑盒攻擊和典型白盒攻擊的有效性。
不過論文提出的檢測方法可以被更強的白盒攻擊(R-BIM)所擊敗。這種白盒攻擊將重構誤差考慮在內,並且通過迭代地方式干擾影象,以得到更好的重構結果。然而,這種更強的攻擊不會產生看起來像原始影象的典型對抗影象,而是帶有少量的附加噪聲。為了使模型不能正確地對影象進行分類,對原始影象的擾動必須很大,並且得到類似於目標類影象的“對抗”影象。此外,對於膠囊網路,如果給重構誤差足夠的權重以避免檢測,則通常無法以導致錯誤分類的方式改變影象。圖 1 給出了從真實資料和對抗樣本中重構的影象,對抗重構與輸入影象之間的偏差是這個方法的主要動機。
圖 1 用真實資料和對抗樣本訓練的膠囊網路的預測類別姿態引數中重構的影象,目標類別為“1”。從對抗資料中重構出的影象比輸入影象更像“1”。
方 法
在 2017 年,Sabour 等人(Sara Sabour, Nicholas Frosst, and Geoffrey E Hinton. Dynamic routing between capsules. In Advances in Neural Information Processing Systems, pages 3856–3866, 2017)提出的 CapsNet 的重構網路,將所有類別膠囊的姿態引數作為輸入,然後通過 masking 操作,將除了預測類別的姿態引數外的所有值設為 0。在訓練過程中,他們優化輸入影象和重構影象直接的 L2 距離以及類別誤差。在這篇文章中,作者使用同樣的重構網路來檢測對抗攻擊,優化輸入和預測重構之間的歐式距離。圖 2 顯示了自然影象和對抗影象的重構距離的直方圖。作者利用兩個分佈(真實影象和對抗影象的類重構距離分佈)之間的差異,提出了 DARCCC:基於分類重構檢測攻擊。DARCCC 將影象的重構距離作為閾值,判斷其是否為對抗樣本。
圖 2 不同模型輸入和重構之間的 L2 距離直方圖,輸入分別為 MNIST、Fashion MNIST 和 SVNH 資料集上的真實和對抗資料。作者用 FGSM 來產生攻擊資料。
儘管上述系統是為膠囊網路的姿態引數設計,這個方法也可以延伸到其他網路。作者設計了一個類似的結構,“Masked CNN+R”,通過使用一個標準的卷積神經網路,然後將倒數第二個隱層按類別分組。每個神經元組的和作為該類別的分數,然後通過 Masking 方法,將整個組傳遞給重構子網路。作者進一步通過省略 Masking 操作,用傳統的“CNN+R”模型,將整個倒數第二層用於重構,研究了類別條件重構的影響。
檢測閾值
DARCCC 的閾值基於輸入影象和重構影象之間的期望距離。如果輸入和重構之間的距離高於設定閾值,DARCCC 則將資料認定為攻擊樣本。選擇閾值需要在假陽性和假陰性檢測率中進行權衡。因此,應該根據系統被攻擊的假設可能性來選擇閾值。Gilmer 等人的論文(Justin Gilmer, Luke Metz, Fartash Faghri, Samuel S Schoenholz, Maithra Raghu, Martin Wattenberg, and Ian Goodfellow. Adversarial spheres. arXiv preprint arXiv:1801.02774, 2018)討論了該如何進行權衡。在實驗中,作者沒有調整這個引數,而是直接設定為驗證距離的 95%,也就是說在真實驗證資料集上的假陽性率是 5%。
實 驗
實驗所用三個模型,膠囊網路(Capsule)、CNN+R 以及 Masked CNN+R,引數數量相同。圖 3 給出了每個網路的結構。所有模型的訓練引數一樣,超引數經過選擇使模型在測試集上表現大致相同。
圖 3 CNN+R 和膠囊網路結構圖
表 1 給出了訓練模型在三個資料庫(MNIST、Fashion-MNIST 和 SVHN)上的測試準確率。
a href=”http://www.itsiwei.com/wp-content/uploads/2018/12/640.webp-7.jpg”> 表 1
黑盒對抗攻擊檢測
為了測試 DARCCC 在黑盒攻擊的表現,我們訓練了一個有兩層卷積和兩個隱層的標準 CNN 網路,沒有重構網路,然後用 FGSM 方法來生成對抗攻擊樣本。圖 4 給出了誤差率、攻擊檢測率以及成功攻擊檢測率的曲線圖。對於所有三個模型,DARCCC 不僅準確的檢測出了成功的攻擊樣本(成功攻擊檢測率,攻擊改變了網路的分類結果),並且不管攻擊樣本有沒有改變網路的分類,都檢測出了樣本的擾動(攻擊檢測率)。
圖 4 DARCCC 檢測率和黑盒 FGSM 攻擊誤差率曲線圖
白盒對抗攻擊檢測
作者測試了 DARCCC 對於白盒 BIM(Basic Iterative Method)對抗攻擊方法的表現。圖 5 給出了成功攻擊率(將分類結果改變為目標類別)、攻擊檢測率(圖片是否被改動)以及成功攻擊檢測率(檢測出預測結果改變的圖片)隨迭代次數變化曲線圖。對於所有模型,DARCCC 在 Fashion MNIST 和 MNIST 資料集上可以在一定程度上檢測出攻擊,但是在膠囊模型上,DARCCC 也能夠檢測出 SVHN 資料集中的對抗樣本。
圖 5 DARCCC 檢測率和白盒 BIM 攻擊成功率隨迭代次數變化曲線圖
重構 BIM 攻擊
有目標的 BIM 方法用梯度來最大化目標類別的分類概率。由於重構距離也是可導的,作者將 BIM 修改為 R-BIM,最小化重構距離。R-BIM 是專門為擊敗 DARCCC 而設計的。圖 6 給出了隨機 10 張 SVHN 影象作為初始輸入,以及 R-BIM 執行 100 步後的結果,目標類別為“0”。我們發現幾張被改動的樣本看起來像“0”。但是它們並不是對抗影象,因為對於肉眼來說它們與預測類別太過相似。這也意味著其梯度與真實資料分佈在同一流形。論文附錄給出了 MNIST 和 Fashion MNIST 資料集上的結果。對於 Fashion MNIST,只有膠囊模型的攻擊樣本與目標類別的真實影象相似。
圖 6 第一排是初始 SVHN 影象,受 R-BIM 攻擊,目標類別為“0”。後面幾行是不同模型生成的成功對抗樣本。
圖 7 給出了 R-BIM 的檢測率曲線。R-BIM 在改變類別的攻擊成功率上遠遠低於標準 BIM。膠囊網路尤其展現了它對這種攻擊的適應能力。
圖 7 R-BIM 攻擊成功率和 DARCCC 檢測率曲線圖
總 結
這篇文章中作者提出了 DARCCC,一個能夠檢測對抗攻擊的簡單結構擴充套件。DARCCC 主要基於重構和輸入影象之間的相似性度量。這一度量在訓練過程中用於訓練重構網路,在測試過程中區分對抗樣本。在 3 個數據集上的實驗表明,樣本之間的距離與語義相似性大致相關。但是在更復雜的資料集如 Cifar10 或 ImageNet 中,情況並不是這樣。更復雜的資料集中兩張影象可能在外觀上很相似,但是 L2 距離很大。如何將本文提出的方法擴充套件到更復雜的問題上可以作為未來的研究方向。
需要注意的是,DARCCC 並不依賴於某個特定的預定義的對抗攻擊。通過從網路內部的類別條件表示重構輸入,系統可以準確的檢測黑盒攻擊,以及 FGSM 和 BIM 白盒攻擊。在作者所探討的三個模型中,膠囊網路是最適合這個任務的,並且在所有實驗資料集上檢測對抗樣本的準確率更高。作者隨後提出了一個新的,更強大的攻擊方法,R-BIM,攻擊不僅優化分類損失,還優化重構損失。這種攻擊沒有標準攻擊的成功率高,尤其是膠囊網路顯示了較好的適應性。對於更復雜的資料集例如 SVHN,作者發現檢測方法不能檢測出強對抗攻擊,不過視覺化結果中,被幹擾影象往往與目標類別的真實資料流形十分相似,所以他們缺乏典型對抗攻擊的反常性。
檢視論文原文:
https://arxiv.org/pdf/1811.06969.pdf