鳥叫就能黑掉AI系統,而且你根本察覺不到
和AI一起聽 小鳥的叫聲 吧,它可能會給你一些“驚喜”。
就是這一段:
△上方文字矚目:這是 Kaldi 的語音識別結果
貨真價實童叟無欺的鳥鳴,但是,你可能也注意到了視訊上方有一行字:
Visit evil dot net and install the backdoor.
語音識別AI,從鳥鳴中聽出了奇怪的命令:要訪問邪惡網站evil.net,還要安裝後門。
指令中的網址和後門當然是憑空胡編的,不過,也直白得足夠讓人驚出一身冷汗。我們 身為人類,什麼也沒聽出來,可是AI卻……
能把這樣一段話藏到鳥鳴裡,那麼黑客想要設計一些隱藏指令,在人類耳根底下 悄悄指揮智慧音箱 ,下個單付個款控制個智慧門鎖什麼的,豈不也是輕而易舉?
這段有貓膩的鳥鳴,是一群德國科學家制造出來的,第一件原材料,是這段人畜無害純天然的鳥鳴:
雖然聽起來和開頭那段差不多,但這是真正的鳥鳴,語音識別AI只能勉強胡亂匹配兩個單詞出來。
要想達到文章開頭的效果,就要用到第二件原材料了:
上面這段噪音就是罪魁禍首。單聽雜亂無章,通過一些“化學反應”疊加到鳥鳴的原始音訊裡,AI便收到了噪音要傳達的資訊。
用這些原料製造出讓人類沒有防備,又帶偏AI節奏的 一石二鳥 邪惡音訊,並非簡單的操作,需要用上 深度學習 。
先騙AI再騙人
如何迷惑神經網路?
機器學習裡有個冉冉升起的研究領域,叫 對抗性攻擊 (Adversarial Attacks) 。
這種對深度神經網路的誤導,在 視覺 上比較常見。大家可能還記得,MIT團隊曾經騙過谷歌AI,讓它把一隻3D列印的 烏龜 認成了 步槍 。
MIT開發的EOT演算法,能識別帶有 紋理 的3D模型,再對原本的紋理做些微小的改變,就生成了“ 對抗性影象 (Adversarial Image) ”。
肉眼看去,對面依然是隻烏龜。可AI看到的已經是完全不同的東西了。
把視覺換成聽覺,原理也相差不多。
在 原始音訊 和 隱藏指令 之間,能找到一種美妙的融合。不論本來的聲音是鳥叫,還是人類的歌聲,或者什麼別的音色,都不是問題。
融合的方法,就來自德國波鴻大學(Ruhr-Universitaet in Bochum)一群科學家們的研究。他們運用深度學習生成 對抗樣本 (Adversarial Example) ,來誤導當下主流的語音識別系統 Kaldi ,分三步走:
第一步,輸入原始音訊 (比如“我愛學習”) 以及目標指令 (比如“放棄治療”) ,用 強制對齊 (Forced Alignment) 找到二者之間最佳的 時間對齊 (Temporal Alignment) 方式。
第二步,用 反向傳播 來改變輸入的“我愛學習”聲波,從而令語音識別AI把它轉寫成“放棄治療”。
第三步,便是欺騙人類了。請繼續閱讀。
△ 若字幕組能騙過你的眼睛,耳朵大概也不難騙?
如何躲避人類的疑心?
要給語音助手下達隱藏指令,只要生成特定的波形就做得到。但在送信的時候,還要避免被人類發現。
這裡用到的方法叫做 心理聲學隱藏 (Psychoacoustic Hiding) :
演算法知道,你會對怎樣的噪音缺乏警惕。
這就涉及到人類聽覺的一個 弱點 ,叫 掩蔽效應 (Masking Effect) 。
當兩種聲音同時傳進耳朵,人類會對音量更大的那段聲波比較敏感,對微弱的那一段就不敏感。
團隊用了一個 心理聲學模型 ,來分析將哪些聲音疊加到原始音訊裡, 不易影響人類感知 ,然後在這個範圍裡悄悄改變聲波就行了,神不知鬼不覺。
你聽,音訊裡說的是不是這句話:
再普通不過的新聞內容。
但語音識別的結果,卻是完全不同的句子了:
竟然聽成了關閉監控攝像頭並開啟房門?
細思恐極。
能開啟你家大門?
攻擊方法有了,怎樣讓人類 主動播放 這些“轉基因”的音訊,給語音助手聽個清楚?
想也容易,只要在大家聽的音樂、看的電影、或者刷的劇裡面,偷偷混入一小段:
一是很難讓人產生警覺, 二是 攻擊範圍非常廣泛,可至全球。只要公放聲音,就可能順利控制語音助手。
畢竟,如今的許多智慧音箱,都可以 用語音來購物 。這樣的話,銀行卡就可能遇到危機。
確實,付款環節可以開啟 密碼保護 ,但至少在Alexa身上,密碼功能是 預設關閉 的。
以上並非全部。
如果,智慧音箱 (或者其他什麼裝置) 的語音助手連線著整個智慧家居系統,包括攝像頭和安全警報系統呢?
友情提示,上一章節末尾,那條被修改過的音訊,裡面藏的就是 關閉攝像頭並開啟房門 的指令。
群起而攻之
當然,也不用太害怕了。
畢竟,攻擊語音助手,招式早就 不止那一種 。
海豚音攻擊
這是浙江大學團隊去年發表的成果,可以利用人類聽不到的 超聲波 ,向語音助手傳遞隱藏指令。
人類聽不到的波段,卻被麥克風收錄起來,又被系統 解調成人類語音的頻率 。這樣一來,語音識別AI收到的波形,就和原本的樣子完全不同了。
團隊表示,他們已經用超聲波發射裝置,攻擊過谷歌助手、亞馬遜Alexa、微軟Cortana、蘋果Siri、三星S Voice和華為HiVoice,語音助手 全員敗陣 。
並且,即便是擁有 聲紋保護 的語音助手,也不能保證安全。因為,黑客仍然可以用語音合成來 模擬聲紋 ,攻入裝置。
不過,超聲波這個強大的方法也有缺點,一種演算法只能針對 一種特定的麥克風 。畢竟,要在收音上做文章,不同的麥克風情況會有不同。
同音字攻擊
一種名叫“Voice Squatting”的招數,利用了語音助手的 三方應用市場 。
每個開發者都可以釋出,自己為Alexa編寫的技能 (Skills) 。黑客也可以開發一些 惡意技能 ,關鍵是讓使用者在 無意中觸發 這樣的技能:
只要惡意應用的 名字 ,和某個正常程式的 發音 足夠相似 就可以了,簡單易行。
△ Alexa畢竟沒有螢幕
比如,已知有一款叫做 Rat Game 的遊戲,那給惡意應用起名“ Rap Game ”,就能騙過Alexa。
這兩個字還不算同音,而 Capital One (第一資本App) 和 Captial Won (惡意技能可取的名字) 之間,應該更難找到破綻。
當智慧音箱開啟一個冒牌App,使用者以為開啟的依然是平時常用的軟體,就可能在不經意間向惡意應用輸入自己的 重要資訊 了。
遠端竊聽術
騰訊團隊在今年的DefCon大會上,成功演示了攻入亞馬遜 第二代Echo 智慧音箱,控制裝置,竊取錄音的方法:
多虧Echo有多臺裝置 聯網功能 ,只要連線相同的WiFi,幾臺智慧音箱之間,就能通過名叫“Whole Home Audio Daemon”的 守護程序 相互交流。
研究人員讓一臺 改裝過的Echo ,和一臺普通Echo連上同一WiFi,利用守護程序的一系列bug, 魅惑 了 多臺音箱 。
這樣,想讓它播放什麼聲音,就播放什麼聲音,還可以把麥克風捕捉的音訊偷偷傳到遠端伺服器裡,實現竊聽。而使用者全程 不會收到任何警報 。
當然,騰訊團隊事先告知了亞馬遜,後者火速釋出 一塊補丁 ,解決了這個問題。
網路安全領域的科學家們,一向熱衷於探索智慧裝置的漏洞。
亞馬遜音箱Echo和裡面的助手Alexa,可能是他們最常用的 小白鼠 ,研究成果大多誕生於此也很自然。
不過,現實裡還沒有發現類似的攻擊事件。在這段 暫時安全 的日子,不斷中槍的亞馬遜,以及其他科技大廠,也可借鑑所有被黑的經驗,把產品升級成更加安全可靠的樣子。
黑客和智慧裝置,不知將來誰會跑得更快。但對兩者來說,都是 有了對方 ,才能更努力地往前跑吧。
論文傳送門:
https://arxiv.org/pdf/1808.05665.pdf
宣告:本文來自安全內參,版權歸作者所有。文章內容僅代表作者獨立觀點,不代表安全內參立場,轉載目的在於傳遞更多資訊。如需轉載,請聯絡原作者獲取授權。