NDR產品設計二三事

產品設計 · 發表 2018-11-25 16:27:42

摘要：安全行業產品經理的要求很高，不能盲目跟風炒作新概念卻無視新技術能力侷限。時下各大廠不惜代價高薪招聘，效果均差強人意，市場供給嚴重不足可見一斑。筆者今年面試了不少產品經理候選人，十個裡面居然有九個會大談特談分析師製造的概念，想見其行業炒作熱度。毫無疑問，知識自然有價值，預測趨勢也能提升...

安全行業產品經理的要求很高，不能盲目跟風炒作新概念卻無視新技術能力侷限。時下各大廠不惜代價高薪招聘，效果均差強人意，市場供給嚴重不足可見一斑。筆者今年面試了不少產品經理候選人，十個裡面居然有九個會大談特談分析師製造的概念，想見其行業炒作熱度。毫無疑問，知識自然有價值，預測趨勢也能提升逼格，概念是市場宣傳有力推手。問題是有些虛無縹緲高大上的概念，連炮製源頭分析師都還不知道怎麼落地，行業裡也沒見可行思路，一線產品管理者若誇誇其談，難免讓人擔心是給自己挖坑、給公司挖坑、甚或是給客戶挖坑。產品經理唯有腳踏實地才能真正創造價值。

行業真相是，安全產品的創新，全都來自於廠商或是大甲方，分析師只不過是做了些總結工作。因此，與其浮躁炒作各種報告，不如埋頭研究其它廠商產品細節。產品經理必備基礎能力之一是競品分析，本篇概述了筆者在設計NDR/NTA產品過程中參考的國外領先產品介面，講講如何在滿足行業共識基本要求的同時，體現自身技術優勢以突出亮點。筆者也希望藉此一文分享心得，有助於業內廠商全面提升網路流量安全分析產品的水平。

網路檢測響應NDR和網路流量分析NTA看起來雖有差別，但能力幾乎雷同，而NDR名稱更符合安全能力發展趨勢，今年來逐漸被更多廠商所接受。本文中提到的產品俱都來自全球範圍內領先明星廠商。Darktrace目前估值超過16億美元，主打無監督機器學習。Vectra宣稱只用AI分析流量元資料就能獲得卓越成效。ProtectWise為2016年RSAC創新沙盒十強，Awake則為2018年十強。JASK今年曾擊敗Splunk贏得政府大單。ExtraHop、Plixer、和Endace是流量分析老牌廠商，之前在運維方向頗有建樹，近期發力安全分析。還有部分廠商如Skybox並不屬於此領域，只是略微提了提功能介面。

NDR作為必備安全基礎能力的論點已被廣泛接受。早在2015年，Forrester已經指出：SIEM作為檢測工具的有效性已觸碰到天花板，即使是在為其提供了正確全面的日誌和安全事件資料、並擁有足夠資源投入運營的企業也是如此。而Ovum描繪的xDR市場發展趨勢與筆者思路不謀而合，不只是針對端點和網路，針對資料和使用者也都需要檢測和響應能力。在筆者看來，xDR將是未來SOC運營平臺的支柱模組。

NDR基礎平臺能力包括流量採集還原以及海量資料儲存索引：類NetFlow的元資料採集早已遠遠不夠安全團隊施展開拳腳，至少要留存所有PCAP；大資料平臺業已是主流廠商標配，無法作為亮點。如果迄今還在掙扎提供這些能力，那連入圍的資格都沒有。所以此部分內容就不贅述了。

流量調查取證

顯然地，傳統安全裝置日誌丟失了大量資訊，無法從中尋找出未知威脅的蛛絲馬跡。對於正計劃構建下一代SOC的組織來說，要實現超越基於傳統IoC和簽名特徵方法、全面補充不依賴有關對手先驗知識而能發現識別惡意活動行為的檢測能力。因此，全量行為資料的調查取證需求迫在眉睫。

無論是載荷投遞、C2通訊、還是內網橫向移動，都不可避免會在網路流量中留下痕跡。即使是無檔案攻擊手段，不會在硬碟檔案系統中儲存木馬以繞過端點防毒，安全人員也能在流量中發現蛛絲馬跡。全流量PCAP下載對SOC運營團隊十分必要。大部分高階分析師都熟悉Wireshark等類似軟體的使用，在研判未知威脅或疑似入侵時，也習慣於自行分析流量資料。不過，載荷檔案還原，對於高階安全人員來講也是比較麻煩的任務，畢竟網路協議眾多，檔案格式也十分複雜，若NDR有能力自動還原，則可大大降低工作量並顯著提高效率。

DarkTrace可以另存流量為PCAP檔案，但沒有載荷檔案還原功能。Darktrace的介面雖然酷炫，但顯然功能比流量運維廠商產品的實用性和便捷度差了很多，後期調查時需要使用者自行拆分，會非常麻煩。

ExtraHop Reveal(x)也能匯出PCAP，有多個維度可供選擇，十分方便分析師後續工作；但其同樣不具備載荷檔案還原能力。

因此，在設計自己的NDR產品時，提供PCAP選擇組合便十分必要。例如下圖會話調查介面，可以根據時間、源IP、目的IP、協議等靈活查詢並下載。

除此之外，受益於我們成熟DLP產品的多年積累，我們能夠提供廣泛的載荷檔案還原能力，這是分析師十分喜愛的常用功能，比國外產品更加出色。如下圖所示。無論是利用Word巨集命令的魚叉攻擊郵件、還是下載Shell/">PowerShell指令碼、外傳盜取的敏感資料、捆綁木馬的Android應用、壓縮檔案等等，瀏覽一下立知大概情況，並可隨時下載獲取，調查取證變得十分輕鬆。

細心的讀者在上圖中還可發現快捷一鍵查詢威脅情報的功能，將滑鼠移到TI標誌上便會列出當前可用的情報來源。我們內建了多個開源威脅情報連結，無論是URL、IP、還是檔案等，都可快速獲取豐富情報資訊。同時，若企業已經自建威脅情報管理平臺，或是外購付費服務，也可通過API輕鬆接入。如果想把檔案扔入沙箱跑跑看，也可通過API一鍵匯出。

作為對比，讓我們看看國外明星產品。ExtraHop提供有限的威脅情報整合，只可查詢域名和IP等的基本資訊。

而JASK的威脅情報整合顯然略好，有VirusTotal的資料。應該也能接入其它供應商資料。

Plixer和Endace的介面看起來像是十年前的產品，這裡就不浪費讀者的寶貴時間了。

IoC搜尋匹配

沒在SOC一線體驗過的產品經理往往不知道簡單的IoC搜尋功能用起來會有多麼順手方便。當安全工程師讀完一篇APT分析文章，好奇手癢想查查自己管轄範圍內有沒有中招時，NDR若配備強大的搜尋功能，便可立竿見影贏得好評。

Darktrace名氣這麼大，居然只能查裝置、子網、IP、主機…… 介面搜尋框內的省略號很好地表達了筆者使用時無語的心情。

我們當然要提供更強大的功能，為威脅調查和響應工作提供更好的支撐。

首先，如果有木馬樣本的雜湊值，如SHA256，可以直接在搜尋框內輸入。

如果想搜尋一個特定檔名中關鍵詞，或者用字尾查詢一類檔案，或者想看到某IP收到所有郵件eml查詢釣魚，都可以使用搜索框快速達成目標。

也許是受到Drive-by攻擊不小心訪問了某個特定網站被種馬，也許是向某個被入侵WordPress當作C&C伺服器上傳資料，也許想看看員工是不是違規訪問了某些網站，等等，只需要輸入部分URL即可迅速得到結果列表。

而Vectra不保留流量全包自然也無法還原所有載荷。在筆者看來，這在未來會是流量分析產品的硬傷：你檢測技術做得再先進，也難免有落網之魚，不能回放未知威脅的攻擊過程，不能輔助真正的威脅獵捕實踐，很難提升整體安全運營水平，長期來講會導致對抗能力的持續下降。

以上都是些起步能力，但做到紮實就可以為後面的高階功能打好地基。筆者個人並不喜歡產品經理去講啥Hadoop和Spark之類的優勢，或是用哪些開源專案能搭個啥高大上的平臺；這裡面有個很基本的經濟學原理，投入資源才能創造價值：你用一週時間搭起來的平臺，別人就算再笨也能用一個月時間搭起來，那什麼才是你的競爭優勢？所以我們內部要求產品經理更多地去關注使用場景，理解使用者面臨何種難題，然後發揮創造力貢獻可以解決的辦法，兼顧技術實現難度與資源投入管理，最後當然要形成產品固化能力。

攻擊面縮減

攻擊面是IT基礎架構容易受到網路威脅入侵的所有方式的總和，攻擊者可以利用各種維度的潛在攻擊向量發起行動。系統暴露在外的介面和功能，都有可能存在弱點被攻擊者利用。縮減攻擊者能接觸到暴露面，自然會增加系統安全性。在建造一個軟體系統時，如何清晰瞭解評價A架構設計是否比B架構更加安全，攻擊面即可作為一種靠譜的評判標準。正規集團軍方式管理的紅隊，滲透測試前總會系統梳理對方暴露的攻擊面，並據此制定戰略任務分解。

Skybox產品主打一個亮點宣傳便是攻擊面視覺化展現：其採集各種安全裝置和軟體的日誌，自動繪出下圖供安全團隊參考使用。

但筆者認為上圖介面固然有用，但對安全團隊並不直觀，效果有限。直接針對防火牆、負載、閘道器、IPS等裝置的攻擊少之又少，而那些真正危險的潛在攻擊面並沒有顯示出來。也完全可以理解，Skybox只採集裝置日誌，就算吹出個花來，充其量做成個有特長的縮減版SIEM。當然Skybox的漏洞管理和路徑分析還不錯。不過這裡還是讓我們正視實際需求，一起看看真正的攻擊面評估。

例如最近氾濫的GandCrab和GlobeImposter勒索病毒通過爆破RDP弱口令進行攻擊，那麼安全團隊若能知道網路中存在哪些裝置私自開放RDP服務便可以提前準備防患於未然。又如影響範圍極廣的Drupal CVE-2018-7600/2遠端程式碼執行漏洞，安全團隊希望能隨時掌控對外提供HTTP服務的裝置有哪些未報備，屬於私自搭設不在管理範圍之內，然後點選按鈕便可確定其使用了哪些元件，是否使用了Drupal。這樣是不是很方便很期待？我們需要找到一種恰到好處的展現方式。

當筆者看到ExtraHop的介面時頓覺眼前一亮，Reveal(x)中描述網路活躍度的彙總介面十分直觀清晰。

上圖雖然不是描述攻擊面的介面，但筆者認為比Skybox中視覺化過度的攻擊面介面更直觀簡潔：花花綠綠大圈小圈對提高SOC團隊效率並無幫助。因此，在我們的產品中，也採用了類似ExtraHop的展現方式，不過做了本質的修改：不再強調網路流量種類和活躍度，更關注暴露在外的應用服務、裝置、與協議。這些結果都是通過網路流量被動發現，沒有進行主動掃描，所以至少都是有其它人在使用的服務。點選每條會有更詳細列表和進一步操作功能。

安全人員可以調查每個風險應用的詳情，例如HTTP伺服器的元件構成。看看下圖，果然有使用Drupal的，接下來就需要去問詢所有者部門或責任人是不是打好漏洞補丁了。

正如上文所說，未經備案的不在管理範圍之內的RDP、HTTP、CIFS、DB等服務都是潛在可被利用的攻擊面，NDR提供了讓安全團隊時時掌握潛在風險的能力，獲取主動優勢。更多關於攻擊面縮減的功能也已在產品路線圖的計劃中。

行為畫像和異常發現

ExtraHop批評Darktrace沒有提供足夠的流量可見性，只是籠統地告訴使用者，你這臺裝置發生過異常流量行為，對安全運營價值不大。此評價自然有一定道理，不過筆者認為不同廠商產品側重點不同各有千秋，片面追求大而全也難免喪失特點，客戶選擇適合自己的便好，廠商也沒必要太過糾結。所謂無監督機器學習是有這個問題，難以解釋機器給出的結果的原因，不能給SOC團隊明確的行動線索。

Darktrace對自己的演算法歷來都是語焉不詳，見不到任何論文，會議演講也都是售前套路，委實有些不可思議。筆者也只能多次在展臺前把玩演示環境並且與工作人員仔細交流，進而推測其背後使用了什麼數學方法。還有一點神奇之處在於，讀者們都知道，一般來說同一個產品方向總會有幾個團隊同時前進互相競爭，但放眼望去，整個安全行業沒有另外一家使用與Darktrace類似宣傳口徑，這不免令人嘖嘖稱奇。讓我們一起看看Darktrace產品介面，下圖右側畫出了風險裝置的歷史活動趨勢曲線。

關於行為畫像與使用者意圖預測，我們在DLP產品裡早已大規模應用。貝葉斯估計演算法也並沒有多高的技術門檻，簡單的迴歸演算法如果工程化好往往也有意想不到的稱心效果。我們先搬來一部分能力加入NDR，例如下圖的三維立體展現，從IP流量、IP連線數、和應用流量等維度分析，底層藍色是演算法基於歷史資料預測出的正常區間，上層是實際發生的超出正常的倍數，這種視覺化輔助安全團隊觀測很直觀，發現異常也很輕鬆，比上圖介面更加有說服力。

如果讀者最近看過一篇翻譯自Darktrace的軟文，也許還記得其中描述的檢測場景，摘錄如下：

Darktrace在一家醫療技術公司發現了這樣的案例：資料分批小量慢速地滲漏出去，傳統安全工具完全察覺不到，根本不會發出警報。被感染裝置多次連線外部IP地址，每次連線都少於1MB，但傳送的資料總量竟然達到了15GB。

所謂這樣的檢測能力，如果不想花錢，Bro + Kibana也能快速視覺化展現。不過要想從數千臺伺服器中找出異常風險，可不是簡單堆疊開源模組就能搞定的，需要投入資源進行二次開發，且不說成本並不低，先得招聘到市場上嚴重匱乏的合適產品和研發經理。此外，只發現流量異常顯然不夠，我們希望畫像是多維度立體的，例如新增埠和新增IP對於中後臺伺服器來說也是風險行為，我們產品介面表現得十分清楚，如下圖。

說到行為畫像，還有種可行方法：界定某種型別威脅場景，然後組合多種惡意行為，綜合評估風險。例如下圖JASK定義“內部威脅 – 橫向移動伴隨流量增加”，表現行為包括短URL連線、無效伺服器SSL證書、主機匹配威脅情報、發現SMB掃描、SMB檔案讀取、垂直埠掃描等。前三條其實跟橫向移動半毛錢關係都沒有，但確實貢獻了此資產的風險數值。

對此，筆者倒覺得沒必要自作主張追求創新，老老實實按照ATT&CK模型去設計便好。行業大多數工程師接受且熟悉的框架，更容易上手，學習成本較低，何樂而不為。

威脅獵捕

許多大型企業已經敏感地意識到威脅獵捕是SOC的重要職能：主動調查發現攻擊者痕跡以儘早攔截、追蹤、和清除入侵者行動。這需要安全團隊完成大量資料調查和分析工作才有可能發現未知威脅。傳統SIEM或大資料平臺將原始資料和日誌採集並建立索引後，並不能主動給出線索或假設，分析人員需要依據個人經驗和邏輯自行發揮，工作效率難以提高。採用機器學習和自動化資料處理的NDR可為SOC提供準確高效的威脅狩獵能力。

以一臺被入侵終端作為線索或假設，探究對手在內網的活動範圍，是安全分析工程師日常進行威脅獵捕的典型任務，因此有很多固定操作流程以發現特定類別的表徵。支援視覺化發現的方便程度，便是衡量產品優劣的重要標準，幾乎所有NDR產品都會提供。例如，通過SMB漏洞橫向移動，便會產生入侵終端與多個PC間CIFS網路流量；同一個botnet的木馬，在某時間段會與特定C&C伺服器聯絡，等等。例如下圖Awake的介面是很常見的範例：

但是上圖有個明顯缺陷：只在小規模網路中效果不錯；大規模企業網路中，終端數量高達數萬個，很可能造成節點與連線十分擁擠，難以辨識操作。同樣的問題在產品介面中經常出現，產品經理往往只注重酷炫美觀，而為此故意忽視實用性與操作難度。筆者去年第一次去Veriflow展臺看產品演示時，一看到類似介面便詢問過相同疑惑，有位核心團隊成員坦承下一版會加以改進。更好的設計是先篩選，過濾掉風險概率極低的網路連線和裝置，只顯示存在可疑行為的節點與連線。筆者更喜歡Vectra的介面，作為檢測很直觀，但它缺少了外部連線，不能一眼看出來線索，無法對威脅獵捕形成有效支撐。

來看看我們產品的介面設計。

上圖中192.168.30.167存在攻擊鏈多個階段入侵行為表徵，已被確認攻陷。讀者們應該都知道8.8.8.8是Google公共DNS服務。透過8.8.8.8連線47.94.129.64是DNS隱蔽隧道的攻擊手段，被熟知的地址經常被安全工程師忽略。我們可以看到，192.168.100.89擁有類似現象，那麼工程師下一步就應該詳細調查此裝置。而221.8.69.25也是個外網DGA解析出的地址，內網中還有192.168.100.31也與此IP有網路活動，顯然此裝置也存在風險。此外，192.168.30.167與192.168.30.62有SMB連線，有可能是橫向移動，也需要看看。

看起來暈暈的ProtectWise介面，資訊量太大，真是難為了產品經理和介面設計師，恐怕使用者也很發愁，總感覺不懂應該點選哪裡，不知道怎麼評論好。

時間軸也是重要視覺化能力，有助於工程師理清紛繁複雜入侵活動，理解攻擊者意圖和手法。如下圖所示，整個攻擊流程十分清晰：先使用魚叉誘使使用者執行downloader，利用檔案混淆下載payload，然後出現DGA域名解析請求、以及DNS隱蔽隧道，後面還出現了SMB橫向移動以及RAR加密分卷外發。安全分析員每天處理高達數百上千條報警事件的追查，常常需要自行推測並還原黑客對手的攻擊思路和入侵路線，亟需有效的輔助工具。篩選高風險的潛在被入侵裝置，按照發生時間先後順序將針對性攻擊手段彙總到一處，剝繭抽絲，輔助還原攻擊手法路徑，能大幅提高響應團隊的工作效率。

時間軸還能輔助安全團隊發現缺失的攻擊步驟，這些步驟往往是利用能繞過現有防護措施的弱點，所以沒能被現有檢測機制識別，例如0-day或者新流程邏輯漏洞等等。在對抗過程中及時發現弱點並加以改進，是安全團隊的重要日常任務。

上文提到的檔案載荷還原與索引、以及IoC匹配查詢也是威脅獵捕的重要支撐能力，這裡就不舉例說明了。

攻擊行為檢測

市面上NDR產品檢測入侵幾乎沒有採用特徵規則、沙箱、威脅情報匹配技術的，一般都是以識別攻擊行為作為賣點。前幾年還鮮有落地的DGA、DNS隧道、內網橫向移動等使用機器學習才可有滿意效果的先進檢測技術，目前已是標配。國外廠商中，傳統做流量分析的這部分能力較弱，缺乏亮點，我們主要看看新興專注安全那幾家。攻擊行為檢測內容太多，限於篇幅，筆者簡單摘錄一些介面供讀者參考，以後有時間按實際場景再展開細說。

首先，讓我們看看Awake裡風險裝置的介面，左側是實體資訊，包括裝置屬性，右側按時間列出了威脅檢出專案。這種展示方式有個嚴重的問題，安全人員需要花費很多時間上下滾動列表才能得知發生了些什麼事件，然後需要再花很多時間自行歸納總結。介面看起來漂亮，該有的似乎也都有，但總是有種霧裡看花的感覺。想要做出好用的產品來，必須要加以改進。

筆者十分認同Awake強調實體的提法，雖然其宣傳的知識圖譜概念不過是個噱頭。以風險實體為核心，一直是我們內部產品設計的重要思路。從DLP產品開始，我們便力圖多維度展現“資料 – 裝置 – 員工”三個實體各自屬性，以及三者之間發生的關係，強調資料資產的全域性分佈視覺化，清楚表述每臺裝置中擁有的資料，並將“員工”作為實體檢測其行為風險與惡意意圖。我們的NDR產品延續了此設計思路，使用者可以在介面中處處查詢相關實體的屬性與關係圖譜。

改進Awake介面的方向，是提供實體風險概述頁面，讓安全人員一覽便可得知此裝置出現過何種異常。針對一個高風險裝置實體的攻擊行為，我們的產品介面如下圖所示：

左側是攻擊手段列表，安全工程師掃一眼便可大致掌握情況。點選任何一項可以看到概述。上圖可以看到惡意域名請求一類行為中出現的DGA。右上角的溯源按鈕點選後會彈出新頁面，詳細列出與此裝置相關聯的此攻擊行為細節。注意，是經過流量還原且資料處理分析後的細節。例如，下載PowerShell指令碼，可以看到具體的ps1檔案；又如，郵件攻擊，可以看到具體郵件內容，包括髮件人、標題、正文、和附件等。如下圖所示，在左側選擇DNS隱蔽隧道，再點選溯源按鈕，我們會看到具體的經過還原的DNS查詢請求細節。

Awake居然還讓使用者自己寫正則表示式發現DNS隱蔽隧道，如下圖，筆者十分不理解這種設計——就算寫不出來機器學習識別模組，也可以做成預置正則規則，降低使用者工作量。

Awake後臺資料欄位設計十分精妙，查詢語言也很漂亮，感興趣的讀者不妨自己去研究。但是筆者覺得讓一線安全人員花費大量時間去學習和熟悉一種新格式語言，去自己總結場景規則，有悖於提高效率的目標；而且對於總是招不到人的小團隊來講，負擔過重。這也是筆者並不看好小安全團隊自建Elastic Stack的做法：平臺易搭，規則難產；只有熟悉攻防對抗的有經驗的資深員工才能寫出場景相關的檢測模型，還需產品管理能力做總體規劃並恰當展現，否則很容易淪為吹牛用的擺設。

我們看到，國外NDR產品裡，也有識別攻擊手段不用高階資料分析技術機器學習的，例如下圖JASK短域名連結檢測，只是這種方法的實際意義不大，需要輔以其它行為檢測才能降低誤報。

說起來，攻擊行為檢測深度與載荷還原能力也有關係，例如我們的產品可以識別出IMAP協議收到郵件裡的RAR壓縮包裡是不是有IQY檔案，顯然只採集元資料的產品無法還原整個拼圖。不瞭解IQY危害性的讀者可以去查查關於FlawedAmmyy的威脅報告。

下圖是ProtectWise的產品，筆者有輕微密集恐懼症，總是看類似介面不順眼，不知道頁面焦點在哪裡，一眼看上去都是重要資訊，再細看卻又覺得都不重要，產品經理到底要通過這個頁面告訴使用者啥呢？

這是ProtectWise官方宣傳材料裡的介面截圖。讀者可以仔細看看，檢測事件流按時間排列，內網不同裝置實體混雜在一起，不同攻擊手段混雜在一起，上面紅色箭頭標記的地方寫著34.7千條結果，如此體積龐大的“乾草堆”，是打算給SOC響應團隊一個下馬威嗎？

下圖的事件專案列表顯示了ProtectWise的檢測能力。不知道讀者有沒有同感，雖然介面很酷很漂亮，但是產品經理貌似不懂應該如何組織展現結果，總是亂糟糟堆在一起，讓人頭大。

本文篇幅已經過長，就到這裡戛然而止吧。最後，上面提到的國外產品俱為行業明星，非常有競爭力，特點明顯優勢突出。反正這些廠商也進不來國門，欠缺之處可以隨便說，大家看完開心一笑而過。做產品有很多難關要渡過，設計時便需考慮技術可行性，後面工程障礙更是數不勝數。筆者對自己家產品的吐槽更加凶猛，能正視缺點不足才能持續改良進步，總比盲目自大吹噓炒作要好。高標準帶來的好處便是，無論你覺得我們的產品目前是垃圾或是優秀，半年之後再看都會讓你感覺有了大幅飛躍提升。同時也要感謝甲方同學的包容與鞭策。

宣告：本文來自DJ的札記，版權歸作者所有。文章內容僅代表作者獨立觀點，不代表安全內參立場，轉載目的在於傳遞更多資訊。如需轉載，請聯絡原作者獲取授權。