2018盤點之資料治理——企業數字化轉型的基礎
一轉眼,2018年就快要成為歷史了。回顧2018年中國IT界最熱的詞彙是什麼?“人工智慧”、“物聯網”、“企業數字化轉型”應該能夠佔據三甲。值得一提的是,無論是人工智慧還是物聯網也都以資料為核心,因此無論如何,資料已經成為IT的核心,成為中國企業轉型升級的核心。
然而,人工智慧行業的從業者有一句名言:“有多少人工,就有多少智慧”——背後的意思大致是要獲得智慧,首先需要人工來治理資料。
換句話說,資料的治理,已經成為IT發展和企業發展的瓶頸之一。如今到底資料治理的市場是一個怎樣的情況,是本文探討的重點。
資料治理的本質是協調和服務
根據Gartner的定義,“資料治理”(Data Governance)是“一種技術支援的學科,其中業務和IT協同工作,以確保企業共享的主資料資產的一致性、準確性、管理性、語義一致性和問責制”。
舉個例子,企業中經常能看到這樣的現象:幾個部門的主管在彙報工作時,同一指標的資料不盡相同,甚至可能截然相反,到底哪個資料是正確的資料?無從確認。造成這種現象的原因很多,比如統計口徑問題、資料質量問題等等。
什麼是治理?治理本身是源自於拉丁文的“掌舵”一詞,強調協調而不是控制,是一個聯合行動的過程,因此治理存在著權力依賴的多元主體之間的自治網路;另一層含義:治理的本意是服務,通過服務來實現管理的目的,這和雲端計算的模式十分吻合。
事實上,在雲端計算、大資料時代,業界公認的全球資料年複合增長率近似於摩爾定律的增幅,即每18個月資料量會翻一番;即便是傳統的主資料,Gartner的預測是未來的年複合增長率至少在17%以上。
不僅如此,各類資料中共享和開放的資料量會越來越多,因此共享管理規則和資料方案的實施,以及安全與隱私保護,都將是企業數字化過程中的核心問題。
資料治理正進入智慧化階段
說到資料治理的技術問題,我們有必要先來看一下Gartner的魔力象限。
在2017年10月釋出的主資料管理解決方案的魔力象限中,處於領導者象限的是Informatica和Orchestra Networks(TIBCO),SAP、IBM等緊隨其後;
而在2018年8釋出的元資料管理解決方案的魔力象限中,Informatica和Collibra、IBM、Oracle等位於領導者象限,SAP、Infogix等緊隨其後。
應該說,Informatica、IBM、SAP、Oracle等老牌資料治理和資料管理軟體廠商,一直是這一領域的核心玩家。而近些年,隨著雲端計算的大規模普及,AWS、微軟、谷歌和阿里雲等雲端計算IaaS提供商,也加入了資料治理的主流廠商行列。
在傳統定義裡,主資料(Master Data)是描述企業核心實體的共享資料,例如客戶、供應商、賬戶和組織部門的相關資料,需要保持一致和統一的識別符號和擴充套件屬性。與記錄業務活動、波動較大的交易資料相比,主資料(也稱基準資料)變化緩慢。主資料管理一般稱之為MDM。
而元資料(Metadata)主要是指中繼資料,即描述資料的資料,主要是描述資料屬性的資訊,具備支援資源查詢、檔案記錄、歷史資料、儲存位置等功能,比如文字標註也是一種元資料。
今天的大資料中80%都是非結構化資料,實際上主要是文字、影象、視訊、音訊這樣的資料。對於企業來說,大量的非結構化資料比如視訊、音訊或者文字檔案存留下來,如何變現價值,非常重要的一點就是要進行文字標註,而文字標註的一大難點,其實是實體和關係的標註,最終為行業知識圖譜打好基礎。這個標註過程如今仍然是費時費力的工作,但市場上也有IBM等大廠和明略資料等眾多創新公司推出的文字資料標註抽取工具。
資料治理的智慧化程度,決定了企業數字化轉型的加速度
事實上,即便像Informatica這樣一家傳統的ETL專家,而今也不再單純談ETL,而是更多關注企業的業務方向,幫助企業做數字化的轉型。因為,無論是EIC、資料治理,還是面向客戶資訊的MDM、面向產品資訊的PIM,這些都不再僅僅是面向技術人員使用的,而是要推薦給客戶整體解決方案——比如通過CLAIRE這樣的資料整合的人工智慧引擎,自動化地來為客戶提供服務。
國內在資料治理和知識圖譜領域也出現了越來越多的準獨角獸企業,譬如明略資料近日簽約陝西農信,落地農信系統首個信貸知識圖譜;助推華南區首個公安知識圖譜成功落地——在公安場景中,通過對大量筆錄做實體、事件、關係的智慧化標註,可迅速構建筆錄中的人、事、地、物、組織的關聯關係,從而從文字資料角度快速構建公安知識圖譜,提高研判效率。
應該說,在今天以資料驅動數字化轉型的Data 3.0時代,資料治理的智慧化程度,決定了企業數字化轉型的加速度——只有具備了智慧化資料治理解決方案和專業服務能力的廠商,才能幫助企業加速實現以資料為驅動的數字化轉型。
與此同時,治理的本意是服務,資料治理更應該通過服務來實現管理的目的。值得一提的是,明略資料日前推出了基於深度學習模型的文字資料標註抽取的SaaS工具——Raptor,明略資料成為目前極少數具備資料治理雲服務能力的廠商之一,在資料治理平臺化、智慧化的道路上邁出了關鍵一步。
在筆者看來,相較於傳統的用於特定業務應用的Data 1.0時代和支援業務流程的Data 2.0時代,今天的Data 3.0時代已經進入到了資料驅動企業數字化轉型的新時代——資料成為了發動機,成為了主角。這時候,不僅資料價值比以往任何時候都更具有顛覆力,成為了經濟發展的新動能;而且,助力企業挖掘資料價值的資料治理廠商,同樣處於風口浪尖,或將迎來市場重新洗牌的2019年。
文/余文
《科技看門道》堅持深度報道,希望能通過資深媒體人對IT產業熱點新聞的深入思考,挖掘其背後的商業邏輯和創新模式——不僅看熱鬧,更要看門道!
《科技看門道》主筆在行業渠道媒體擁有超過15年的從業經歷,不僅對IT消費類和企業級軟體、硬體、雲端計算、大資料、人工智慧、區塊鏈均有較深入的理解,同時見證了中國IT產業鏈上下游合作生態圈包括分銷、零售、SI、ISV和CSV的進化歷程,見證了金融、能源、製造、醫療、教育、政府、零售、高科技等行業的資訊化之路。