大資料安全體系介紹之技術體系篇

資料安全大資料 · 發表 2019-02-22 08:21:21

摘要： *本文作者：smoonsoso，本文屬 FreeBuf 原創獎勵計劃，未經許可禁止轉載。一、背景隨著資訊化進入3.0階段，越來越呈現出萬物數字化、萬物互聯化，基於海量資料進行深度學習和資料探勘的智慧化特徵。資料安全正式站在了時代的聚光燈下，隆重登場。計算機行業的安全是一個由來...

*本文作者：smoonsoso，本文屬 FreeBuf 原創獎勵計劃，未經許可禁止轉載。

一、背景

隨著資訊化進入3.0階段，越來越呈現出萬物數字化、萬物互聯化，基於海量資料進行深度學習和資料探勘的智慧化特徵。資料安全正式站在了時代的聚光燈下，隆重登場。計算機行業的安全是一個由來已久概念，我們比較認可雷萬雲博士對於資訊保安發展階段的劃分，認為截止到目前，資訊保安大致經歷了5個時期。

第一個時期是通訊安全時期，其主要標誌是1949年夏農發表的《保密通訊的資訊理論》。在這個時期主要為了應對頻譜通道共用，解決通訊安全的保密問題。

第二個時期為電腦保安時期，以二十世紀70-80年代為標誌《可信計算機評估準則》（TCSEC）。在這個時期主要是為了應對計算資源稀缺，解決計算機記憶體儲資料的保密性、完整性和可用性問題。

第三個時期是在二十世紀90年代興起的網路安全時期，在這個時期主要為了應對網路傳輸資源稀缺，解決網路傳輸安全的問題。

第四個時代是資訊保安時代，其主要標誌是《資訊保障技術框架》（IATF）。在這個時期主要為了應對資訊資源稀缺，解決資訊保安的問題。在這個階段首次提出了資訊保安保障框架的概念，將針對OSI某一層或幾層的安全問題，轉變為整體和深度防禦的理念，資訊保安階段也轉化為從整體角度考慮其體系建設的資訊保安保障時代。

資訊是有價值的資料，隨著海量、異構、實時、低價值的資料從世界的各個角落，各個方位撲面而來，人類被這股強大的資料洪流迅速的裹挾進入了第五個時期，也就是目前所處的資料安全時代。

二、大資料安全的矛盾和目標

在大資料時代，安全面臨著如下矛盾亟待解決：

1、資料的收集方式的多樣性、普遍性和技術應用的便捷性同傳統的基於邊界的防護措施之間的矛盾；
2、資料來源之間、分散式節點之間甚至大資料相關元件之間的海量、多樣的資料傳輸和東西向資料傳輸的監控同傳統的傳輸通道管理和南北向資料傳輸監控之間的矛盾；
3、資料的分散式、按需儲存的需求同傳統安全措施部署滯後之間的矛盾；
4、資料融合、共享、多樣場景使用的趨勢和需求同安全合規相對封閉的管理要求之間的矛盾；
5、資料成果展示的需要同隱蔽安全問題發現之間的矛盾。因此，大資料的安全防護不僅要基於傳統的OSI整體防禦體系，還要打造基於資料生命週期安全防護策略。

資料安全防護工作的目標會根據安全責任主體不同導致側重點有所差異，但大致可以分為三個層次：

1、涉及國家利益、公共安全、軍工科研生產等資料，會對國計民生造成重大影響的國家級資料，這類資料需要強化國家的掌控能力，嚴防資料的洩露和惡意使用。
2、涉及行業和企業商業祕密、經營安全的資料，必須保障資料機密性、完整性、可用性和不可抵賴性。
3、涉及使用者個人和隱私的資料，在使用者知情同意和確保自身安全的前提下，保障資訊主體對個人資訊的控制權利，維護公民個人合法權益。

三、資料全生命週期安全管理

資料全生命週期安全這個概念頗具爭議，有人認為很多公司都是先有業務後有安全，安全部門面對的是海量的存量資料，日均增長上百張的資料表，利用資料、使用資料人員基數不斷膨脹而且流動變化巨大，老闆承擔巨大的社會和經濟方面的壓力亟需安全部門做出成績的急迫心情，這種情況下如何實現資料分類分級？

首先，要對資料進行分類分級的前提是良好的資料治理效果。我們當時面對的挑戰是整合了全國31個省、340+市公司的各種資料，資料部門的小夥伴花費了整整一年的時間梳理清楚4門28類資料，實現了日均接入資料超過400T，資料質量高達80%以上的資料治理目標，形成“七步走”的資料治理方法和資料質量評價體系，為資料分類分級和資料安全防護奠定了堅實基礎。

其次，面對數以千計的資料訪問人員，訪問近7000臺伺服器的龐大叢集，平臺部門也是花費了1年時間將平臺叢集劃分為資料接入區、開發測試區、核心生產區和DMZ區，將資料訪問人員按照不同的職能許可權限定在相應的區域，初步建立了平臺的訪問控制機制，為資料安全的管控提供了關鍵一環。

我們的資料安全是建立在各部門辛苦工作的基礎之上，從實踐的經驗來看，圍繞資料生命週期建立資料安全體系是完全可行的。

四、資料產生／採集環節的安全技術措施

1、資料分類分級系統

元資料的分類分級管理在大資料環境下要依靠自動化手段來保障效率，由於資料表的新增和變更的速度過快，對每個表進行分類分級的方式是無法實現的，我們採用的是對欄位進行敏感的評級的方式，根據元資料的分類分級的敏感的等級和可能的應用場景制定不同的脫敏策略。

2、通道加密技術

資料傳輸環節主要通過通道加密技術保障資料保密性，可以通過HTTPS、VPN 等技術建立加密傳輸鏈路，這項技術比較成熟，就不在這裡展開了。

五、資料儲存環節的安全技術措施

1、資料脫敏系統

對於敏感度高、價值高的資料進行脫敏是資料儲存和使用前提條件，資料脫敏後會和原始資料形成演算法、金鑰或對照表的對映關係，只要同時獲取脫敏資料和對映關係後才能正確得到真實資料，可以提升資料竊取的機會成本。

提到脫敏就不得不提到資料tokenization（令牌化）和MASK概念了，tokenization的思路是對資料使用某種演算法的混淆，比如對於某個手機號碼13300000000，混淆後可能會把該號碼變成18910001234，保持了號碼某些屬性的一致或可用，但這種方法只能適用少量資料的開發和測試環境下，無法避免大量資料的重複攻擊和比對攻擊，在真實使用的案例中要嚴格資料的應用範圍。

而MASK的方式就是遮擋，比如上面的手機號碼13300000000遮擋後可能變成133****0000，將歸屬地的資訊隱藏，這種方式在資料視覺化環境中已經大範圍使用，在大資料環境中存在關聯其他資訊和猜解攻擊的風險。

同樣，對資料進行全盤加密的方式也是不可取的，Hadoop生產叢集通常都有上千個節點，叢集間、元件間頻繁進行加密和解密操作計算和效能開銷是無法支撐業務的發展的。對部分資料欄位的脫敏既可以有效降低資料操作開銷，也可以將業務必須的欄位按需保留下來，實現《網路安全法》要求的無法還原成特定個人的合規要求。

2、eUID編碼技術

隨著手機實名制的推廣，手機號與個人使用者資訊的弱關聯程度越來越高，手機號在一定程度可以作為某些場景下的個人標識，而且各個種類的資料也需要有主鍵將其關聯起來。我們設計了eUID（esurfing Unique Identifier）天翼唯一標識， eUID作為各表和真實資料同脫敏資料之間的“轉接橋樑”，在開發和使用過程中使用脫敏後的資料，降低資料肩窺風險。同時也首次實現跨行業不同使用者ID的匹配互通模型和基於布隆過濾器（Bloom filter）的資料交換方案，其空間效率和查詢時間都遠遠超過業界普遍的演算法而且誤識別率低。

3、資料安全域

資料安全域是採用傳統的分域隔離的概念解決虛擬化環境下東西向流量管控的問題，該內容偏重於管理層面，也是由無序到有序的過程，就不在這裡展開了。

六、資料處理環節的安全技術措施

1、平臺操作審計系統

大資料平臺內，不同部門不同許可權不同身份的操作者遵循不同策略訪問不同資源、元件和裝置，產生大量操作行為，產生演算法複雜度至少是Ο(n3)的關係網路，節點數量越大，每增加一個節點的，這個關係網路的複雜度要從Ο(n3)轉變為Ο(n3 +n),這個數量有可能趨向於天量。所幸的是，我們做了良好的分域、分角色的管理，不會出現某個角色訪問所有節點的情況，可以將關係複雜度由Ο(n3)降低到Ο(m*n2),其中這個m是個常量。因此，對於平臺的操作審計是可行的。

平臺操作審計系統收集角色在hadoop元件（如HDFS、Hive、Hbase）和虛擬機器、宿主機上的操作日誌，使用身份關聯模型將不能直接進行角色判定的兩個標識操作，通過比較與兩個標識有直接或間接關聯的若干個標識，綜合評價後進行的關聯。如判斷兩個不同體系的賬戶的某一次操作是否是同一個人，需要通過對使用者賬戶的分析、行為操作、訪問終端等方式進行綜合分析評定。根據角色的許可權和訪問策略，使用K-means演算法和UEBA（使用者與實體行為分析）技術分析和建立角色行為基線，並對角色日常操作進行自動化的操作審計及判斷，發現異常或敏感操作，並實現準實時告警功能，在機器學習的驅動下，或許會帶來新的驚喜。

2、資料訪問控制體系

Hadoop平臺採用了SASL的認證機制，提供了Anonymous（無須認證）、Plain（採用base64位加密明文傳輸，沒有用到加密演算法）、Digest-Md5（採用基於MD5提供的安全服務）和Kerberos認證方法。無論是Apache體系的ranger、knox元件還是CDH的sentry元件，都以Kerberos為基礎。目前各種安全元件都存在一定適配性問題，如sentry目前只支援HDFS、HIVE等少數幾種元件，ranger需要對Hadoop的版本有一定要求等問題。同時，動態的訪問需求也給運維小夥伴帶來極大的困擾，因此在實際的工作中，我們只是小規模的試用。

七、資料應用環節的安全技術措施

1、資料水印系統

大資料環境下，資料以多種樣式存放，資料一旦洩露如何定位溯源是一個難題，傳統的在圖片放置明暗水印的方式是無法應對文字格式的溯源需求的。我們設計開發資料水印演算法，在日常的業務資料中通過演算法編碼生成和插入偽資料記錄，這些偽資料記錄符合該類資料相關欄位屬性，如數字、價格、姓名或郵箱地址等，形成資料水印。將資料水印採用均勻分佈的方式自動化地插入對應資料集合中，以實現資料所有者標記，保障資料所有者權益，同時追蹤資料濫用情況，確保了資料釋出和銷燬階段及資料洩露後的回溯分析需求，該技術於2015年申請國家發明專利。

2、出口審計系統

電信通過BDCSC（bigdata customer service center）平臺為2B使用者提供4+1的產品服務，為確保輸出介面符合規範和不包含敏感資料，我們設計並實現了出口審計系統，該系統可以對介面輸出資料進行自動解密、模式匹配、異常發現等功能，能夠及時發現出口資料的洩露風險。

八、資料銷燬環節的安全技術措施和其他技術

1、資料銷燬

在資料銷燬環節，安全目標是有兩個，一是《網路安全法》要求資料可刪除權，二是資料在物理層面的永久刪除、不可恢復。在技術層面上有比較成熟的技術，這裡就不展開了。

2、資料陷阱技術

特意提一下這個技術是因為偶爾聽說有廠家正在大範圍使用，該技術的原理是指製作一個數據鉤子，將鉤子埋置在資料集合中，如果有人觸碰了該集合，便捕獲訪問者操作和其他攻擊行為，很有趣的一種思路。

3、資料地圖

對於安全、資料、運維部門來說，十分渴望瞭解資料都分佈在平臺的哪些角落，哪些是高敏感資料資產，資料被哪些人使用，這些人擁有的許可權是什麼，資料的傳遞路徑是什麼，資料表的繼承和血緣關係是什麼，因此，如何拼接成一個視覺化的資料地圖，根據地圖進行相應的干預和操作應該會成為一個巨大需求。

4、ObserveIT系統

ObserveIT是一款優秀的操作審計系統，能夠將Linux和windows的操作以文字的方式記錄下來，以視訊的方式展示出來，甚至可以還原windows環境下快捷鍵操作，審計人員可以通過設定操作規則和檢索關鍵字的方式發現異常、高危操作。

5、其他的其他

分散式環境下的資料完整性驗證、資料標籤、區塊鏈、細粒度訪問控制、資料溯源等技術。同時，使用大資料安全技術來進行網路安全入侵檢測、安全態勢感知、網路攻擊取證、威脅情報分析等安全應用研發也是今後需要研究的重點。

九、小結

大資料時代，使得安全的重心終於回到安全的本質：資料的安全問題上。資料流如水流，無法阻擋且無處不在，在新的挑戰面前，以邊界防禦為主的鐵布衫方式越來越顯得力不從心，只有內外兼修、苦練內功、在技術、法規和管理方面共同發力方可守衛資料的安全。