共享資料,而不要提取資料
21CTO 社群導讀:一位大資料專家詳解了資料共享背後的基本概念,以及為什麼它有可能改變傳統的資料倉庫。
原生雲(cloud-native)資料倉庫的出現,例如一個雲資料倉庫叫做 Snowflake,它的官方網址為: ofollow,noindex" target="_blank">https://www.snowflake.com ,它正在改變人們對資料倉庫與BI系統的構建和思考方式。
Snowflake的核心功能是資料共享,它讓 Snowflake的所有使用者都可以訪問任何其他資料庫,甚至可以跨越不同公司,安全訪問其資料,包括個性化檢視,無需再複製,準備,提取,下載或傳輸資料檔案。
聽起來似乎挺簡單,這正是一種面向未來的優勢和轉型。
開發者可以將Snowflake視為全球的一個單一資料庫,使用Snowflake的每個使用者實際上都使用相同的資料庫,它只是設定了每個使用者資料保密的訪問規則。
但是,通過一些SQL命令或GUI介面點選,就可以變換這些規則以啟用Snowflake所謂的資料共享。
當一個使用者與Snowflake中的另一個使用者共享資料時,可以將現有資料表的SELECT或其他訪問許可權授予該使用者。對於傳統資料庫中相同資料庫例項的使用者來說,這一直是可行的,但如果世界上的每個人都使用相同的資料庫例項,那麼任何人也都可以與其他人進行資料共享了。
許多資料倉庫包括來自公司內部的資料,來自合作伙伴,供應商和付費資料提供商的資料。比如,消費品製造商通常從銷售其商品的零售商那裡獲得銷售大資料。如果沒有零售商的資料,他們就不知道都是誰在購買,或者商品的實際銷售地點,時間或購買內容等對其具特別有價值的內容。
在沒有使用資料共享之前,製造商需要從零售商處提取資料,並把它傳到CPG公司,然後再載入到另一個數據庫中。這樣就會發生一筆不小的費用,還有時間延遲和低效率,而且還丟失了大資料分析、無法提取和傳輸最低級別資料等能力。
大資料處理的複雜度,以至於最強大的零售商也只能讓技術供應商來幫自己處理資料倉庫與BI系統。比如沃爾瑪的零售系統就是一個典型的例子。
如果實現資料共享,就不需要再提取,傳輸,載入或維護任何東西,公司也就不需要承擔供應商或合作伙伴BI的成本,資料所有者(稱為共享提供者)只需共享資料就可以了。
這對於共享資料公司來說是完全免費的,傳輸的另一方被稱為共享消費者,只需自己執行相關查詢就可以。
當消除了提取和傳輸資料的成本和複雜性,包括供應鏈資料以及BI系統的成本,軟體提供商也會節省大量成本,並且還讓共享消費者能夠比前能更好地訪問更新,更詳細的資料記錄。
當我們不再複製、提取和傳輸資料,這使事情變得更簡單。共享的接收者(消費者)可以像自己的一樣使用BI工具操作其中的表格,資料神奇地存在:新鮮,詳細,隨時可供人們按需訪問。
但是,也會有一些責任加到BI工具層面上,例如Zoomdata。如果沒有ETL過程載入入站資料,就沒有合適的地方來轉換,這需要將一個組織的資料與另一個組織的資料無縫連線。使用共享資料作為進一步轉換的來源將是一種選擇,如果需要複製資料,就破壞了開始使用資料共享的新鮮度和效率優勢。
在理想情況下,BI工具可以動態地進行一些資料同步,查詢實際的真實資料,不用做或儲存任何副本。在Zoomdata中,這些功能稱為多源分析,我們最初開發它們是為了幫助同步來自多個數據源的資料,例如,將Snowflake中的資料連線到Hadoop的資料。
它們也是幫助共享消費者現有資料與共享提供商的共享資料保持一致所需的。
我們在Zoomdata中構建了大量功能來實現這一功能,例如跨源過濾,資料融合以及用於ad-hoc群組和集合分析的金鑰集。其技巧是在每次查詢時動態地根據需要同步資料,而不再通過複製來建立轉換過程。
更進一步來說,未來的BI工具可以幫助使用者發現可能對他們更有用的資料,這些資料可能與現存在資料一致。可以簡單向使用者顯示與現有分析相關的可用資料共享列表,另外還包括針對數千個共享源的自動化建議和機器人反向測試等複雜方法,還有自動化確定哪些共享可以提供給機器學習或營銷演算法,或為股票交易系統提供額外的Alpha參考。
BI始終是使用者業務和資料彙集在一起的地方。人們通過像Snowflake這樣的資料庫進行資料共享,BI使用者不僅可以有效利用自己的資料,還可以利用其它提供商和公司的資料。
Zoomdata還想象了一個美好前景:BI工具是人們訪問世界所有資料的門戶,只需通過幾次簡單點選就可以輕鬆編制索引、搜尋,然後立即和自己的資料保持一致。
作者:Justin Langseth
編譯:張正