資料孤島、資料虛假、資料洩露：大資料風控如何翻越三座大山？

大資料財經 · 發表 2019-03-23 10:09:00

摘要：追溯至1980 年，著名未來學家阿爾文· 托夫勒曾在著作《第三次浪潮》中，熱情地讚頌了大資料將成為繼工業革命、數字資訊之後的第三次浪潮。直到2008年末，蘭道爾·布萊恩特、蘭迪·卡茲、愛德華·拉佐斯加在《大資料計算：在商務、科學和社會領域建立革命性突破》中探討了大資料應用的可能。更進...

追溯至1980 年，著名未來學家阿爾文· 托夫勒曾在著作《第三次浪潮》中，熱情地讚頌了大資料將成為繼工業革命、數字資訊之後的第三次浪潮。直到2008年末，蘭道爾·布萊恩特、蘭迪·卡茲、愛德華·拉佐斯加在《大資料計算：在商務、科學和社會領域建立革命性突破》中探討了大資料應用的可能。更進一步講，IBM在2012年釋出了白皮書《分析：大資料在現實世界中的應用》，其在高德納分析員道格·萊尼3V理論的基礎上，重新定義了大資料的4V應用理論，並在釋出會上大膽預言。

大資料風控的跨領域應用

2011年2月17日，全世界記住了IBM的沃森計算機系統。其在智力競賽節目《Jeopardy》(危險)中打敗了兩名人類挑戰者，電腦科學家們認為這是大資料超級計算能力的勝利。自此以後，大資料正式開啟產業應用的先河，短短几年間席捲了金融、科技、政府、教育、醫療等多個領域。其中, 金融作為一個以數字體現價值的典型行業，大資料技術已經廣泛應用於金融的多個領域，比如風險控制、客戶管理、精準營銷和產品服務創新等。

金融領域的應用

眾所周知，大資料技術在風險控制領域的應用是非常廣泛的。大資料風控在金融領域的應用,根據風險型別的不同會有所差異，如申請欺詐風險、交易欺詐風險、支付欺詐風險、信用風險、合規風險、市場風險、套現風險和洗錢風險等。筆者將從最重要的兩類風險：欺詐和信用來進行探討。反欺詐主要是通過身份核驗、黑名單排查來解決：1資料真實性；2還款意願問題。徵信主要是對還款能力和還款意願的一種判斷。

舉例來說，JPMorgan是較早採用金融大資料風險控制解決方案的投資銀行。其反欺詐和信用風控的原理是基於事件驅動型的實時欺詐檢測和信用風險監管。

在資訊採集方面，客戶的資料大部分來源於線下業務系統累積的結構化資料，小部分資料是在Facebook和Twitter等社交網站上採集的半結構化或非結構化資料。比如文字、視訊等。經過資料交換平臺和Hadoop分散式系統的集中處理後，JPMorgan的金融大資料系統會將統一格式化後的資料儲存在資料倉庫。

在實時欺詐風控方面，JPMorgan基於客戶的360度畫像進行反欺詐和反作弊的實時監控。首先，採取線上結合線下的方式對客戶的身份進行交叉檢驗。例如，通過FICO評分，選取評分低於650分的客戶群進行線下調查。從很大程度上，規避了個人或團伙的申請欺詐。另外，JPMorgan的反欺詐平臺會利用資料探勘、機器學習等技術，隨機從消費歷史資料庫的欺詐消費記錄中，提取出具備相同特徵的欺詐模式，對下一次新的消費行為進行預測和分析。每當發現新的欺詐行為後，系統會立即進行匹配檢測，判斷欺詐型別是交易欺詐、支付欺詐亦或是其他型別的欺詐，若與系統原有欺詐模式不同，則將此全新的欺詐行為記錄到反欺詐模型中。

在信用風險控制方面，JPMorgan重點考察客戶的還款能力和還款意願。其利用logistic迴歸修正模型來預測借款者的還款能力。模型主要對客戶的資產、負債、未來收入和成本的現金流等特徵進行量化價值評估。JPMorgan對客戶還款意願強弱的考察主要是基於客戶的事件資訊和相似客戶行為來進行分析。形象來說，傑克近期中了500萬彩票大獎，中獎事件資訊的觸發會增強李三的還款意願。湯姆和吉姆是好朋友，經常一起出入同一餐廳(按美國習慣同時使用各自信用卡分攤帳單)，從湯姆還款的頻率和額度可以從很大程度上預測吉姆的還款意願的強弱。

其他領域的應用

如今，全世界的一半以上的人口生活在城市中。隨著城市人口的劇增，如何精細化管理人口、資源如何平衡配置和如何打造智慧城市成為了各國政府亟待解決的難題。

大資料作為一項新型資訊挖掘和處理技術，對智慧城市的建設提供了有效的解決方案。一個大資料技術比較典型的應用是在智慧交通領域，現階段，錯綜複雜的城市道路，可以通過GPS和攝像頭資料來進行規劃設計。包括道路紅綠燈的時間間隔、事故預防調查和道路攝像頭的關聯控制等。例如，大資料服務提供商Teradata曾經幫助西班牙交通總署實現大資料交通事故調查，不僅大幅降低了事故調查的人力、財力資源，而且從交通事故源頭上有效減小了事故發生概率。

大資料風控的有效性問題

近年來，大資料風控技術在各個應用領域的發展速度令人目不暇接。然而,從另一個方面,其有效性也受到了非常大的挑戰。陳宇2015年在《風吹江南之網際網路金融》中提出了大資料風控無效論。筆者認為，大資料是有效的，但其有效性不足。

具體如近期特別關注的P2P平臺。自2007年我國誕生第一家P2P平臺起，P2P平臺頻頻暴露出跑路、停業、提現困難和經偵介入等問題。目前，大部分P2P平臺均宣稱，自家平臺是採用先進的大資料風控技術，嚴進嚴出，基本能保障不良貸款率在P2P行業較低的水平。然而，P2P行業的風控現狀卻總是事與願違。根據網貸之家釋出的《2015年P2P網貸行業年報》顯示，2015年全國正常運營的P2P平臺總數2595家，累積停業及問題平臺數量高達896家，佔比34.53%。問題平臺總數高達2014年的3.26倍。因此，P2P風控之殤從一個側面反映出大資料風險控制存在有效性不足的問題。

有效性問題的提出

在資料來源方面，資料孤島仍然是制約我國金融信貸行業發展的重要因素。目前，政府、銀行、券商、網際網路企業和第三方徵信公司掌握的資訊資產難以在短時間內互聯互通。正如吳昊（2015）所說一樣，資訊孤島導致了資訊不對稱、不透明，帶來了大量的多頭債務風險和欺詐風險。由此得知，金融信貸行業若想利用大資料風控技術大力提升風控水平，就必須打破資訊孤島，解決資訊不對稱和資訊獲取不及時的問題。

在資料質量方面，資料缺乏有效性是資料質量不佳的主要因素，也直接導致了大資料風控有效性的不足。近些年，金融機構、電子商務、社交網路、公共政務、OTO網際網路平臺等資料體猶如一臺永不停歇的機器一般，源源不斷地製造著每天2EB級別的海量資料。然而，資料格式多樣化、資料形式碎片化、有效資料缺失和資料內容不完整等問題也隨之而來。因此，改善資料質量，提升有效性成為大資料風控水平提高的必備環節。在資料採集和使用的制度建設方面，保護個人或企業隱私，一直都是我國政府制度建設的一個重大方向。如何合法地、適度地、有效地採集和使用大資料？這不僅僅是一個技術實現的問題，更是一個社會進步的問題。近年來，資料洩露事件頻頻出現，也成為了各大媒體爭相報道的新聞頭條和人們老生常談的熱點話題。

有效性問題的分析

縱觀大資料風控有效性不足的三大因素，資料孤島是當務之急。首先，公共設施、生活繳費、社會保險、交通路況、教育醫療等政務資料，依然掌握在相關政府部門資料庫，尚未向社會公開，甚至可以說，政府部門內部都未進行共享。目前，雖然工商、司法、公益等資訊已經向全社會開放，但是公共政務資訊的開放程度仍然較低。況且，政府部門資訊的公開必將是一個漫長且複雜的過程。其次，銀行、券商、基金和信託等傳統金融機構長期形成的合規文化氛圍，主導著各項業務的規範發展，因而設計了諸多制約環節和監控措施。以至於傳統金融機構的資料開放流程變得異常繁瑣和低效。再者，掌握著大量真實資訊的網際網路企業、第三方徵信公司和O2O平臺之間也難以達到互聯互通的程度。電子商務、社交網路、地理位置、信用評估、搜尋引擎、移動網際網路行為等大資料交叉集中於阿里巴巴、騰訊、百度、拉卡拉、九次方等企業。自IBM公佈首例大資料商業案例以來，大資料技術在世界範圍內得到快速普及。資料即價值，由此深深地根植於每一個現代企業的發展理念中，這些企業都希望抓住第三次技術浪潮的時代機遇。因為在其跑馬圈地的過程中，互相之間存在激烈的競爭關係，所以大資料互聯互通的目標目前看來難以實現。

從網際網路金融元年開始的短短三年間，網路安全事件層出不窮，網路資料真實性再次被提及。王強（2015）認為，大資料時代的資料基本是垃圾進垃圾出，真實度可能只有50%。企業家和學者對資料真實性的擔憂不是空穴來風，銀行、P2P等機構都遭遇過嚴重的金融欺詐事件。比如，2015年，我國商業銀行頻現身份冒用、盜卡交易和頻繁套現等安全事件。毋庸置疑，視風險為第一要務的商業銀行仍然是大資料真實性最高的機構。然而，商業銀行仍然會遭受上述風險。其中，金融基礎設施不完善是最直接的一個因素。具體舉例來說，在身份驗證方面，一個自然人或企業很有可能會開通各個商業銀行、第三方支付、P2P網路借貸、小額貸款等賬戶。商業銀行通過央行徵信系統來對客戶在其他銀行的表現進行風險識別和風險定價，對於第三方支付、P2P網路借貸和小額貸款等公司的賬戶資料，商業銀行由於缺乏外部大資料採集能力和意識，並不能及時和輕易地獲取。因此，客戶除商業銀行之外，在其他信貸渠道引發的信用風險，勢必會疊加到商業銀行的信貸風險中。

與此同時，網路安全事件也帶來了嚴重的資料洩露風險。從國際資料洩露情況來看，Verizon釋出的報告《Data Breach Investigations Report 2015》顯示，全球調研覆蓋95個國家，61個報告了資料洩露問題，共涉及79790個安全事件，損失高達數千億美金。從國內來看，國內專業的網際網路安全平臺360釋出的《2015年中國網際網路安全報告》顯示，共有1410個漏洞可能造成網站上的個人資訊洩露，可能洩露的個人資訊量高達55.3億條。

總而言之，若想提升大資料風控的有效性，就必須解決資料孤島、資料低質、資料洩露的問題。

大資料風控有效性的提升途徑

與其說大資料風控是無效的，不如說大資料風控尚處於初級階段。在這個階段，大資料風控有效性的提升需要以探索的方式解決資料孤島、資料低質、資料洩露三個方面的問題。從而對我國原有過度中心化、同質化的風控體系進行升級換血，避免系統性風險帶給我們的巨大危害。

在現有大資料風控模式優化的長期過程中，政府監管部門、傳統金融機構、網際網路企業、第三方徵信公司、OTO平臺將扮演不可或缺的角色。其中，政府監管部門的作用尤為重要。比如資料孤島的打破，得益於政府監管部門積極的徵集多方意見，制定公正嚴明的法律法規或行業規則，倡導多方加入到資訊共享、資料互通的行列。因此，大資料風控有效性的提升，筆者認為，應該從以下三個方面來思考：

倡導資料互聯互通解決資料孤島問題

目前，資料孤島是大資料風控體系建設過程中資源整合的最大障礙。各個機構和企業在拓展業務的同時，積累了海量的資料資訊。但由於各個系統之間缺乏資訊共享機制，導致形成了大量的資料孤島，不利於我國信用基礎資料庫的建設。

倡導資料互聯互通能有效地打破資料孤島，然而，真正實現互聯互通的目標，必須經歷漫長的過程。回顧國際上發達國家的資訊互通的歷程，作為世界金融中心的美國，其信用大資料的開放方式是值得借鑑的。美國最初的資料開放源自於民眾對信用資料知情權的訴求。 1953年至今，從最早的《資訊自由法》到美國總統奧巴馬推動資料的開放運動，已經從國內成功地推廣到了由美國、英國、墨西哥等8個國家發起成立的資料開放政府聯盟（OGP）。

從國內來看，我國在資料開放水平上進步顯著，近幾年提出了很多創新舉措。 2015年8月31日，國務院印發了《促進大資料發展行動綱要》，正式將大資料戰略定位為國家層面的創新戰略。在這份綱要中，提出了 2017 年底前，我國跨部門資料資源的內部共享格局將形成。2018 年底前，將建成我國政府資料統一開放平臺。2020年底前，我國將逐步實現金融、信用、企業登記監管、交通、醫療、教育、氣象等民生保障服務相關領域的政府資料集向社會開放。

對地方政府而言，我國50個省市在貴陽市政府、貴陽大資料交易所的推動下，將共同發起中國城市大資料產業發展聯盟，並於2016年5月27日在貴陽揭牌。中國城市大資料產業發展聯盟的成立，不僅從很大程度上推動城市之間的資訊共享、資料互通，全面啟用大資料價值，而且有助於提升政府行政效率，提升科學決策能力。例如，而且將積極推動政府資料公開，打通部門壁壘、提高行政效率，提升政府治理能力，引領政府職能轉型。舉例來說，農產品的核心問題是合理種植或養殖農產品，正如郭文利，權維俊，劉洪2010年在《精細化農業氣候區劃業務流程初步設計》中所言一樣，農業氣候區劃是農民種植好農產品的決定性因素之一。所以說，根據已有的氣候、土質、病蟲災害、迴圈生長等資訊，藉助於大資料風控技術形成的生長趨勢和消費情況報告，對農牧業的精細化生產尤為重要。隨著政府資料的共享，農業部門通過氣象部門的實時氣候大資料預測，可以幫助農民完成科學種植。對企業而言， 2015年1月，中國人民銀行印發了《關於做好個人徵信業務準備工作的通知》。通知要求芝麻信用、拉卡拉信用和騰訊徵信等八家機構做好個人徵信業務的準備工作，具體來說，截止到2015年末，央行個人徵信系統共收錄8.8億自然人數，其中3.8億人有信貸記錄，企業徵信系統收錄企業及其他組織2120萬戶，其中577萬戶有信貸記錄。資料量的爆炸式增長，反映了政府監管部門、金融機構和企業之間已經開始進行大資料的分享嘗試。由此，拉開了大資料交叉互通的序幕。

增強資料檢驗能力提高資料質量和可靠性

伴隨著資料採集渠道的日益拓展，通過交叉檢驗、生物識別和機器學習等技術來解決資料低質的問題顯得迫在眉睫。

據悉，目前貸款包裝、組團欺詐、賬戶造假等情況屢見不鮮。尤其在信用貸款領域，欺詐佔了60%的比例，大部分採用身份造假和資料包裝。其中，在實名場景欺詐層面，大資料風控模式需要對身份冒用、虛假資訊和不良歷史進行風險識別；在非實名場景欺詐層面，大資料風控模式需要警惕虛假註冊、惡意搶購、買賣串通和營銷作弊等手段。面對網際網路金融在中國的爆炸式增長，商業銀行等信貸機構缺乏外部大資料的採集意識和技術。舉例來說，一家創業企業在銀行成功獲得授信額度為50萬、為期1年的人民幣貸款。這家企業同時在多家小型P2P企業獲得多筆小額貸款，為了在銀行獲得更高的信用額度，其利用商業銀行、P2P企業之間資訊不對稱的機會，將P2P借款還給銀行，以獲得銀行的第二筆額度更高的貸款。如此迴圈，這種“類旁氏欺詐”並不會被銀行和P2P覺察。然而，隨著我國大資料開放程度的日益擴大，交叉檢驗等技術的日趨成熟，“類旁氏欺詐”的真實面目將會暴露無遺。

另外，現存的大量人工稽核工作將會被智慧稽核技術所取代。比如第三方徵信機構——芝麻信用積極地尋求外部合作，打通公安、工商、法院部分資料介面。擁有著豐富的內外部大資料，資料種類涵蓋衣食住行、生活繳費、投資理財、轉賬支付、社會公益等數百種生活場景資料。與此同時，螞蟻金服藉助芝麻信用公司的信用大資料，利用機器學習、視訊對話和笑臉掃描等先進技術手段，對內外部大資料進行交叉檢驗，有效快速地進行風險識別和定價。借款人從申請到授信，只需要7分鐘。

推動資料安全相關制度的建設防範資料非法洩露

無疑，資料洩露是大資料時代不能忽視的一個風險來源。1997年以後，網際網路在中國飛速發展，我國逐漸進入資訊化社會，民眾的衣食住行現在已經和網際網路緊密地聯絡在了一起。由此，資料安全已經上升到與國家、社會、個人息息相關的問題。對於國家而言，繼國防安全、金融安全之後，資料安全已經上升至第一安全的位置；對於社會而言，資料安全成為了信用倫理體系健康建設的重要一環；對於個人而言，如果不能保障資料安全，那麼個人隱私資訊將無法保全，隨之而來的是整個社會的信用風險的爆發。

我國在資料安全立法起步較晚，但是進展神速。2013年11月12日正式成立國家安全委員會。2014年我國在2013年11月12日正式成立國家安全委員會，並在2014年2月27日成立中共中央網路安全和資訊化領導小組辦公室，由習近平總書記任組長，這意味著資訊保安正式提升到國家戰略高度。2014年8月28日，工信部發布《工業和資訊化部關於加強電信和網際網路行業網路安全工作指導意見》，提出完善網路安全保障體系的總體目標。到了2015年6月24日，民眾最為期待的《網路安全法》草案進入人大常委審議階段，2015年8月5日意見徵求結束，立法進入最後階段，正式推出在望。《網路安全法》將從保障網路資料安全和保障網路資訊保安等方面進行了具體的制度設計，這對於大資料風控有效性的提升，是最大的利好。

在資料安全意識方面，難能可貴地是， 2012年的達沃斯世界經濟論壇上，就一致決定將資料納入到新的經濟資產類別。我國學者劉玉在《淺論大資料資產的確認與計量》中探討了資料作為一種經濟資產的會計計量方法。

結語

綜上所述，伴隨著政府監管部門、傳統金融機構和網際網路企業等各級組織的共同努力，視覺化立體信用體系的確立和完備制度的建設，資料將不再孤立，大資料風控有效性不足的問題也將迎刃而解。

銀行與金融科技融合的理想境界是什麼？是銀行即服務。

2019年6月14日，億歐智庫研究院將在“2019丨全球新經濟年會·金融科技峰會”上釋出《 2019開放銀行與金融科技發展研究報告》，深度解讀金融科技賦能開放銀行的融合與落地應用——上海·虹橋·世貿展館邀您見證！搶票連結： https://www.iyiou.com/post/ad/id/792

本文已標註來源和出處，版權歸原作者所有，如有侵權，請聯絡我們。