鳥叫就能黑掉AI系統，而且你根本察覺不到

語音助手語音識別 · 發表 2018-10-08 00:36:11

摘要：和AI一起聽小鳥的叫聲吧，它可能會給你一些“驚喜”。就是這一段： △上方文字矚目：這是 Kaldi 的語音識別結果貨真價實童叟無欺的鳥鳴，但是，你可能也注意到了視訊上方有一行字： Visit evil dot net and install the ...

和AI一起聽 小鳥的叫聲 吧，它可能會給你一些“驚喜”。

就是這一段：

△上方文字矚目：這是 Kaldi 的語音識別結果

貨真價實童叟無欺的鳥鳴，但是，你可能也注意到了視訊上方有一行字：

Visit evil dot net and install the backdoor.

語音識別AI，從鳥鳴中聽出了奇怪的命令：要訪問邪惡網站evil.net，還要安裝後門。

指令中的網址和後門當然是憑空胡編的，不過，也直白得足夠讓人驚出一身冷汗。我們 身為人類，什麼也沒聽出來，可是AI卻……

能把這樣一段話藏到鳥鳴裡，那麼黑客想要設計一些隱藏指令，在人類耳根底下 悄悄指揮智慧音箱 ，下個單付個款控制個智慧門鎖什麼的，豈不也是輕而易舉？

這段有貓膩的鳥鳴，是一群德國科學家制造出來的，第一件原材料，是這段人畜無害純天然的鳥鳴：

雖然聽起來和開頭那段差不多，但這是真正的鳥鳴，語音識別AI只能勉強胡亂匹配兩個單詞出來。

要想達到文章開頭的效果，就要用到第二件原材料了：

上面這段噪音就是罪魁禍首。單聽雜亂無章，通過一些“化學反應”疊加到鳥鳴的原始音訊裡，AI便收到了噪音要傳達的資訊。

用這些原料製造出讓人類沒有防備，又帶偏AI節奏的 一石二鳥 邪惡音訊，並非簡單的操作，需要用上 深度學習 。

先騙AI再騙人

如何迷惑神經網路？

機器學習裡有個冉冉升起的研究領域，叫 對抗性攻擊 (Adversarial Attacks) 。

這種對深度神經網路的誤導，在視覺上比較常見。大家可能還記得，MIT團隊曾經騙過谷歌AI，讓它把一隻3D列印的烏龜認成了步槍。

MIT開發的EOT演算法，能識別帶有紋理的3D模型，再對原本的紋理做些微小的改變，就生成了“ 對抗性影象 (Adversarial Image) ”。

肉眼看去，對面依然是隻烏龜。可AI看到的已經是完全不同的東西了。

把視覺換成聽覺，原理也相差不多。

在 原始音訊 和 隱藏指令 之間，能找到一種美妙的融合。不論本來的聲音是鳥叫，還是人類的歌聲，或者什麼別的音色，都不是問題。

融合的方法，就來自德國波鴻大學（Ruhr-Universitaet in Bochum）一群科學家們的研究。他們運用深度學習生成 對抗樣本 (Adversarial Example) ，來誤導當下主流的語音識別系統 Kaldi ，分三步走：

第一步，輸入原始音訊 (比如“我愛學習”) 以及目標指令 (比如“放棄治療”) ，用 強制對齊 (Forced Alignment) 找到二者之間最佳的 時間對齊 (Temporal Alignment) 方式。

第二步，用 反向傳播 來改變輸入的“我愛學習”聲波，從而令語音識別AI把它轉寫成“放棄治療”。

第三步，便是欺騙人類了。請繼續閱讀。

△ 若字幕組能騙過你的眼睛，耳朵大概也不難騙?

如何躲避人類的疑心？

要給語音助手下達隱藏指令，只要生成特定的波形就做得到。但在送信的時候，還要避免被人類發現。

這裡用到的方法叫做 心理聲學隱藏 (Psychoacoustic Hiding) ：

演算法知道，你會對怎樣的噪音缺乏警惕。

這就涉及到人類聽覺的一個弱點，叫 掩蔽效應 (Masking Effect) 。

當兩種聲音同時傳進耳朵，人類會對音量更大的那段聲波比較敏感，對微弱的那一段就不敏感。

團隊用了一個 心理聲學模型 ，來分析將哪些聲音疊加到原始音訊裡， 不易影響人類感知 ，然後在這個範圍裡悄悄改變聲波就行了，神不知鬼不覺。

你聽，音訊裡說的是不是這句話：

再普通不過的新聞內容。

但語音識別的結果，卻是完全不同的句子了：

竟然聽成了關閉監控攝像頭並開啟房門？

細思恐極。

能開啟你家大門？

攻擊方法有了，怎樣讓人類 主動播放 這些“轉基因”的音訊，給語音助手聽個清楚？

想也容易，只要在大家聽的音樂、看的電影、或者刷的劇裡面，偷偷混入一小段：

一是很難讓人產生警覺，二是攻擊範圍非常廣泛，可至全球。只要公放聲音，就可能順利控制語音助手。

畢竟，如今的許多智慧音箱，都可以 用語音來購物 。這樣的話，銀行卡就可能遇到危機。

確實，付款環節可以開啟 密碼保護 ，但至少在Alexa身上，密碼功能是 預設關閉 的。

以上並非全部。

如果，智慧音箱 (或者其他什麼裝置) 的語音助手連線著整個智慧家居系統，包括攝像頭和安全警報系統呢？

友情提示，上一章節末尾，那條被修改過的音訊，裡面藏的就是 關閉攝像頭並開啟房門 的指令。

群起而攻之

當然，也不用太害怕了。

畢竟，攻擊語音助手，招式早就 不止那一種 。

海豚音攻擊

這是浙江大學團隊去年發表的成果，可以利用人類聽不到的 超聲波 ，向語音助手傳遞隱藏指令。

人類聽不到的波段，卻被麥克風收錄起來，又被系統 解調成人類語音的頻率 。這樣一來，語音識別AI收到的波形，就和原本的樣子完全不同了。

團隊表示，他們已經用超聲波發射裝置，攻擊過谷歌助手、亞馬遜Alexa、微軟Cortana、蘋果Siri、三星S Voice和華為HiVoice，語音助手 全員敗陣 。

並且，即便是擁有 聲紋保護 的語音助手，也不能保證安全。因為，黑客仍然可以用語音合成來 模擬聲紋 ，攻入裝置。

不過，超聲波這個強大的方法也有缺點，一種演算法只能針對 一種特定的麥克風 。畢竟，要在收音上做文章，不同的麥克風情況會有不同。

同音字攻擊

一種名叫“Voice Squatting”的招數，利用了語音助手的 三方應用市場 。

每個開發者都可以釋出，自己為Alexa編寫的技能 (Skills) 。黑客也可以開發一些 惡意技能 ，關鍵是讓使用者在 無意中觸發 這樣的技能：

只要惡意應用的名字，和某個正常程式的發音 足夠相似 就可以了，簡單易行。

△ Alexa畢竟沒有螢幕

比如，已知有一款叫做 Rat Game 的遊戲，那給惡意應用起名“ Rap Game ”，就能騙過Alexa。

這兩個字還不算同音，而 Capital One (第一資本App) 和 Captial Won (惡意技能可取的名字) 之間，應該更難找到破綻。

當智慧音箱開啟一個冒牌App，使用者以為開啟的依然是平時常用的軟體，就可能在不經意間向惡意應用輸入自己的 重要資訊 了。

遠端竊聽術

騰訊團隊在今年的DefCon大會上，成功演示了攻入亞馬遜 第二代Echo 智慧音箱，控制裝置，竊取錄音的方法：

多虧Echo有多臺裝置 聯網功能 ，只要連線相同的WiFi，幾臺智慧音箱之間，就能通過名叫“Whole Home Audio Daemon”的 守護程序 相互交流。

研究人員讓一臺 改裝過的Echo ，和一臺普通Echo連上同一WiFi，利用守護程序的一系列bug，魅惑了 多臺音箱 。

這樣，想讓它播放什麼聲音，就播放什麼聲音，還可以把麥克風捕捉的音訊偷偷傳到遠端伺服器裡，實現竊聽。而使用者全程 不會收到任何警報 。

當然，騰訊團隊事先告知了亞馬遜，後者火速釋出 一塊補丁 ，解決了這個問題。

網路安全領域的科學家們，一向熱衷於探索智慧裝置的漏洞。

亞馬遜音箱Echo和裡面的助手Alexa，可能是他們最常用的 小白鼠 ，研究成果大多誕生於此也很自然。

不過，現實裡還沒有發現類似的攻擊事件。在這段 暫時安全 的日子，不斷中槍的亞馬遜，以及其他科技大廠，也可借鑑所有被黑的經驗，把產品升級成更加安全可靠的樣子。

黑客和智慧裝置，不知將來誰會跑得更快。但對兩者來說，都是 有了對方 ，才能更努力地往前跑吧。

論文傳送門：

https://arxiv.org/pdf/1808.05665.pdf

宣告：本文來自安全內參，版權歸作者所有。文章內容僅代表作者獨立觀點，不代表安全內參立場，轉載目的在於傳遞更多資訊。如需轉載，請聯絡原作者獲取授權。