機器學習技術利用推文預測高危安全漏洞,準確率超過80%
機器學習技術將利用推文內容發現高危安全漏洞。
上週於舊金山舉行的 RSA 安全大會上,不少主張安全至上的供應商將各類充滿營銷色彩的“威脅情報”與“漏洞管理”系統一股腦地堆在使用者面前。而事實證明,目前已存在的正規、免費漏洞資訊源足以提醒系統管理員,哪些錯誤問題真正需要修復,且該來源每週七天、每天二十四小時不間斷更新——這就是Twitter。一組研究人員以實驗方式對 Twitter 中的 bug 資料流價值進行了評測,同時構建起一款用於追蹤相關資訊的免費軟體,用以消除可解決的各類軟體缺陷並評估其嚴重程度。
俄亥俄州立大學、安全廠商 FireEye 以及研究企業 Leidos 的研究人員們於最近發表了一篇論文,其中描述了一種新型系統,能夠讀取數百萬條推文中所提及的軟體安全漏洞,而後利用機器學習訓練演算法,對描述方式與具體內容所代表的威脅狀態進行評估。他們發現,Twitter 資訊不僅可用於預測接下來幾天出現在國家漏洞資料庫中的大多數安全漏洞(即由國家標準與技術研究所追蹤的各項安全漏洞的官方登記平臺),同時也能夠利用自然語言處理技術,大致預測出哪些漏洞將被賦予“危險”或者“高危”嚴重等級,準確率超過 80%。
俄亥俄州立大學教授 Alan Ritter 指出,“我們認為安全漏洞類似於 Twitter 上的一種熱門主題,它們都有著能夠追蹤的顯著趨勢性。”相關研究成果將於今年 6 月在計算語言學協會的北美分會上正式發表。
舉例來說,他們目前正在網上進行的原型測試顯示,上週 Twitter 曾出現大量與 MacOS 系統中最新漏洞(被稱為“BuggyCow”)相關的推文,同時也提到一種可能允許頁面訪問的 SPOILER 攻擊方法(利用英特爾晶片中存在的某深層漏洞)。研究人員們開發的 Twitter 掃描程式將二者標記為“可能高危”,截至目前,這兩項漏洞都還沒有被收錄至國家漏洞資料庫當中。
當然,他們坦言目前的原型設計方案並不完美。當下這款程式每天只能更新一次,其中包括不少重複性內容,而且通過比較我們發現其結果中錯過了一些後來被國家漏洞資料庫收錄的條目。但 Ritter 認為,此項研究的真正進步在於,以人類語言為基礎對漏洞進行自動分析,同時準確地根據其嚴重程度做出排序。這意味著,其有朝一日也許會成為系統管理員在保護自身系統免受侵擾時,可資利用的一款強大資訊聚合器,或者至少是商業漏洞資料來源中的一種必要組成部分,甚至有望成為一種前所未有的、根據重要性進行加權排序的免費漏洞資訊源。而這一切,都將成為系統管理員群體的巨大福音。
他解釋稱,“我們希望構建起一款能夠讀取網路資訊並提取新軟體漏洞早期報告的計算機程式,同時分析使用者對其潛在嚴重性的整體觀看。結合實際來看,開發人員往往面對著這樣一個現實難題——面對複雜的分析結果,哪個才代表著真正可能令人們遭受重大損失的高危漏洞?”
事實上,其背後的思維方式並非新鮮事物。多年以來,人們一直在考慮如何通過網路上的文字資訊總結出軟體漏洞資料,甚至早已具體到 Twitter 之上。然而,利用自然語言處理技術對推文中漏洞的嚴重程度進行排序,則代表著一大“重要轉折”,同樣關注這一問題的摩郡馬里蘭大學教授 Anupam Joshi 對此深表贊同。他指出,“人們越來越關注網路之上關於安全漏洞的討論內容。人們已經意識到,我們完全可以從 Twitter 等社交平臺上獲取早期警告訊號,此外也包括 Reddit 帖子、暗網以及部落格評論等。”
在實驗當中,俄亥俄州立大學、FireEye 以及 Leidos 的研究人員們最初使用到與安全漏洞相關的 6000 條推文 評論這一子集。他們向 Amazon Mechanical Turk 的工作人員展示了相關結果,即以人為方式按嚴重程度對其進行排序,而後過濾掉那些與大多數其他讀者完全對立的異常結果。
接下來,研究人員利用這些經過標記的推文作為機器學習引擎的訓練資料,並進一步測試其預測結果。著眼於接下來五天之內可能被納入國家漏洞資料庫的各項安全漏洞,該程式得以利用此資料庫中的原有嚴重性排名,來預測此時段內的 100 項最嚴重漏洞,且準確率達到 78%。對於前 50 位,其對漏洞嚴重程度的預測則更為準確,正確率達到 86%。更重要的是,對於接下來五天內被國家漏洞資料庫評為嚴重程度最高的 10 個安全漏洞,該程式的預測準確率高達 100%。
俄亥俄州立大學的 Ritter 警告稱,儘管目前的測試結果非常喜人,但他們打造的這款自動化工具不應被任何個人或組織作為唯一漏洞資料來源使用——至少,人們應該點選底層推文及其連結資訊以確認分析結果。他指出,“其仍然需要人類介入進來。”在他看來,最好是能將這款程式納入由人類負責規劃的廣泛漏洞資料來源當中,並僅作為來源之一。
但鑑於漏洞發現速度的加快,以及社交媒體上與漏洞相關的資訊不斷增加,Ritter 認為這款程式有望成為從噪聲中找尋有價值訊號的一款重要工具。他總結道,“如今的安全行業面臨著資訊過多的問題。這款程式的核心在於建立演算法,幫助大家對全部內容進行排序,從而找出真正重要的資訊。”